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尽管 业界 媒体 、 摄 
像 机 制造 商 和 开发 者 提 
供 了 很 多 种 智能 摄像 机 的 
“定义 ”， 至 今 仍然 没有 
形成 统一 的 定义 。 在 本 书 
中 ， 把 智能 摄像 机 定义 
为 这 样 一 种 视觉 系统 ， 
它 通过 图 像 获 取 电 路 产 
生 图 像 ， 从 中 提取 面向 特 
定 应 用 的 信息 ， 并 生成 事 
件 描述 或 作出 判决 ， 从 而 
为 智能 自动 化 系统 服务 。 
本 书 是 一 本 独特 的 参考 
书 ， 其 内 容 涉 及 智能 摄像 
机 的 科学 、 技 术 和 商业 等 
几 个 方面 ， 具 体 包 括 : XX 
感知 器 、 像 素 电路 、 信 号 
处 理 、 图 像 传感器 架构 、 
RAKAB. TAMA 
觉 、 传 感 器 网 络 、 智 能 摄 
像 机 的 应 用 以 及 市 场 发 展 
趋势 。 本 书 为 专业 人 员 、 
研究 者 和 业内 人 士 提供 了 
有 关 智 能 摄像 机 的 背景 信 
息 、 基 础 知识 、 历 史 演 
变 、 工 业 应 用 以 及 发 展 趋 
势 方面 的 内 容 。 
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本 书 从 成 像 的 历史 演变 过 程 开 始 ， 以 独特 的 视角 引入 了 智能 摄像 机 的 定义 ， 整 合 形 
成 了 智能 摄像 机 领域 内 的 知识 技术 体系 ， 并 给 出 了 一 些 典 型 的 工业 应 用 案例 ， 最 后 对 智 
能 摄像 机 的 市 场 发 展 进行 了 分 析 。 其 内 容 涉 及 光 感 知 器 、 像 素 电 路 、 信 号 处 理 、 图 像 传 
感 右 架构 、 骨 入 式 系统 、 计 算 机 视觉 、 传 感 融 网 络 、 图 像 处 理 算法 等 诸多 领域 。 

本 书 内 容 丰 富 ， 学 科 跨 度 大 ， 知 识 技术 体系 严谨 ， 具 有 前 脆性， 对 于 智能 摄像 机 相 
关 领 域 的 研究 人 员 、 工 业界 人 士 以 及 研究 生来 说 ， 是 一 本 具有 理论 和 工程 应 用 价值 的 优 
秀 参考 书 。 
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至 今 为 止 ， 智 能 摄像 机 没有 统一 严格 的 定义 和 概念 ， 然 而 “更 简单 、 更 快捷 、 
\ 巧 、 更 便宜 ”是 对 智能 摄像 机 的 广义 要 求 。 
目前 ， 智 能 摄像 机 正 处 在 产品 生命 周期 的 增长 阶段 。 交 通 控制 和 安全 、 系 统制 


造 业 和 自动 化 行业 是 智能 摄像 机 现今 最 大 的 应 用 领域 ， 此 外 ， 管 能 摄像 机 在 军事 、 
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为 八 个 部 分 ， 
接 ， 每 一 部 分 又 自 成 一 体 。 包 括 了 智能 摄像 机 的 历史 演变 、 基 本 知识 、 
技术 方案 和 工业 应 用 ， 既 有 系统 方案 介绍 ， 也 有 应 用 实 作 

本 书 的 翻译 和 审 校 由 程 永 强 负责 ， 课 题 组 何 小 刚 、 弄 
FE1-43p2 iE, XE. m 
别 参 与 了 书 中 第 5、6 RANAR, EA, WER, A 
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的 研发 ， 如 片上 系统 、 计 算 机 视觉 和 图 
PAHE, BERERA, AAEREN 
本 书 系统 地 集成 了 智能 摄像 机 领域 内 全 球 资深 专家 学 者 的 代表 性 论述 ， 全 书 分 











汽车 系统 (车 道 偏离 警告 、 远 光 灯 辅助 、 限 速 信 
面 ) 、 医 学 和 生物 技术 行业 的 应 用 也 逐步 突显 了 其 重要 性 ; 在 不 远 的 将 来 ， 随 着 技 
术 的 日 趋 成 就， 智能 摄像 机 也 会 很 快 进入 其 他 新 兴 行 业 市 场 ， 包 括 人 机 交互 、 玩 
具 、 视 频 游 戏 、 娱 乐 、 医 疗 、 保 健 和 生活 辅助 等 。 
市 场 对 智能 摄像 机 的 持续 扩大 需求 ， 同 
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时 也 刺激 了 相关 的 科学 技术 及 工程 应 用 


像 理解 、 仿 生 视 觉 、 超 计算 、 











等 ， 相 应 的 研究 成 果 不 断 推陈出新 。 


内 容 按照 智能 摄像 机 的 技术 路 径 滋 次 编排 ， 各 部 分 之 问 
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智能 摄像 机 是 一 种 摄取 图 像 并 理解 图 像 的 视觉 系统 。 本 书 整合 了 关于 智能 摄像 
机 的 多 方面 论题 ， 旨 在 为 读者 提供 有 益 的 参考 。 书 中 对 于 智能 摄像 机 相关 的 科技 和 
商业 方面 的 内 容 做 了 合理 安排 : 检测 器 、 像 素 、 信 和 号 处 理 、 图 像 传感器 结构 、 衣 入 
式 系 统 、 计 算 机 视觉 、 传 感 器 网 络 、 智 能 摄像 机 应 用 以 及 市 场 发 展 趋 势 。 尽 管 许 多 
种 与 这 些 领域 有 关 的 教科 书 已 经 出 版 ， 但 仍然 有 必要 单独 出 版 一 本 能 把 智能 摄像 机 
各 个 部 件 的 透彻 论述 整合 在 一 起 的 书 。 

智能 摄像 机 的 概念 出 现在 30 年 前 。 在 学 术 和 工业 领域 中 ， 智 能 摄像 机 技术 已 
经 取得 了 巨大 的 进步 。 摄 像 机 的 智能 化 ， 使 其 获得 了 越 来 越 广泛 的 应 用 : 监控 监 
视 、 工 业 应 用 、 机 器 人 、 交 通 运输 以 及 很 多 其 他 领域 。 编 写本 书 的 目的 是 为 专业 人 
员 、 应 用 人 员 和 学 生 提 供 智能 摄像 机 的 演变 背景 、 应 用 基础 及 发 展 趋势 方面 的 
概述 。 

本 书 集成 了 许多 具有 卓越 才能 和 经 验 的 作者 的 文章 ， 这 些 文章 涵盖 了 诸多 领 
域 ， 包 括 硬件 电路 、 信 号 处 理 、 矢 和 人 式 计 算 、 计 算 机 视觉 、 传 感 器 网 络 和 智能 摄像 
机 在 监控 、 机 需 视 觉 及 工业 自动 化 中 的 应 用 。 此 外 ,在 访谈 德国 斯 图 加 特 光 学 博览 
会 上 的 业界 领跑 者 和 参展 公司 的 基础 上 ， 本 书 也 详实 地 分 析 了 智能 摄像 机 的 市 场 发 
展 情况 9 。 

摄像 机 的 发 明 可 以 追溯 到 公元 10 世纪 ， 阿 拉 伯 科学 家 Al- Hasan Ibn Al- Hay- 
tham， 首 次 详细 、 正 确 地 分 析 和 描述 了 人 眼 视 觉 过 程 。 虽 然 中 国 的 墨 子 〈 公 元 前 
5 世纪 )， 希腊 的 亚 里 士 多 德 (公元 前 4 世纪 ) 和 阿拉 伯 的 Al Kindi (公元 9 t 
纪 ) 已 经 描述 了 单 束 光 线 通 过 针 孔 的 效应 ,但 谁 也 没 提 及 投射 到 屏 面 上 的 东西 
是 光圈 另 一 边 的 物体 的 像 。 和 希腊 人 以 两 种 方式 描述 视觉 过 程 。 亚 里 士 多 德 及 其 弟 
子 支 持 视觉 传人 理论 ， 即 目标 的 物理 形式 进入 眼睛 时 产生 视觉 。 第 二 个 理论 是 发 
射 理论 ， 欧 几 里 得 (Euclid, 4x76 3 世纪 ) 和 Ptolemy (公元 2 世纪 ) WH, 
眼睛 射出 光线 时 产生 了 视觉 感知 。Ibn AL Haytham 则 认为 ， 既 不 是 物理 形式 进入 
眼睛 也 不 是 眼睛 射出 光线 造成 视觉 的 产生 。 他 把 视觉 描述 为 发 生 在 大 脑 中 的 过 
程 ， 而 不 是 发 生 在 眼睛 里 的 过 程 。 他 通过 实验 证 明 ,， 来 自 外 面 物体 上 每 点 的 光线 
沿 着 直线 传播 投射 到 暗箱 中 的 像 上 。 他 设计 了 最 早 的 暗箱 ， 也 最 先 把 物理 现象 由 
哲学 研究 转向 实验 研究 。150 年 后 ，Averroes 开辟 了 神经 科学 ， 确 定 了 视网膜 的 感 
















































































”年 度 光学 博览 会 网 址 : http: //cms. messe- stuttgart. de/ 。 
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光 属 性 并 描述 了 视觉 器 官 。 德 国 科 学 家 Johannes Kepler F 1604 年 首先 使 用 了 拉丁 
术语 camera obscura, 

从 10 世纪 以 来 ， 上 暗箱 的 模型 就 是 大 的 暗室。17 世纪 晚期 ，Robert Boyle 和 
Robert Hooke 创建 了 第 一 个 便携 式 暗箱 。1839 Æ, EA Louis Daguerre ( 银 板 照 
相 法 ) 和 英国 人 William Fox Talbot ( 碘 化 银 纸 照 相 法 ， 光 力 摄影 法 ) 都 开发 了 最 
早 的 能 制作 照片 的 暗箱 2。 这 些 发 明 引 领 了 一 个 冉 新 的 技术 领域 ， 如 莫 尔 斯 电报 
(通信 类 ) 、 摄 影 机 (视觉 艺术 和 摄影 术 ) 以 及 由 美国 科学 先驱 Eugene F. Lally 于 
1961 年 发 明 的 数字 摄影 。 

上 述 发 明 的 贡献 有 助 于 进一步 理解 视觉 ， 并 激发 技术 进步 得 以 在 所 谓 的 摄 
影 机 中 实现 视觉 过 程 。 但 是 ， 什 么 时 候 摄 影 机 能 够 拥有 智力 从 而 成 为 智能 摄像 
机 呢 ? 

1937 4E, George Stibitz 的 数字 计算 机 发 明 可 被 视 为 摄像 机 拥有 智力 的 起 点 。 智 
能 摄像 机 诞生 在 军用 和 美国 宇航 局 喷气 推动 实验 室 空 间 应 用 的 背景 下 ， 在 航天 飞机 
中 需要 一 台 单 独 的 机 载 视觉 系统 来 理解 、 分 析 场 景 。 在 1961 年 的 美国 火箭 学 会 年 
E. Eugene F. Lally 介绍 了 完整 的 成 像 装置 和 处 理 单 元 思想 。 他 提出 ， 火 星 任 务 
中 的 摄像 机 光电 检测 器 应 采用 马赛 克 阵 列 ， 其 输出 应 在 数字 域 中 处 理 ， 从 而 可 提供 
机 载 导 航 。Hans Moravec 在 其 博士 论文 报告 了 20 世纪 60 年 代 早 期 设计 的 一 辆 小 
车 ， 具 有 导航 和 避 障 能 力 。 这 辆 小 车 由 计算 机 遥控 ， 通 过 装备 在 小 车 上 的 电视 摄像 
机 ， 计 算 机 能 控制 小 车 运行 实际 的 简单 障碍 路 线 。1975 ^F, Ron Schneidermann 首 
次 给 出 了 智能 摄像 机 这 一 命名 ， 并 描述 了 摄像 机 制造 商 开发 光圈 控制 系统 来 实现 自 
动 曝光 控制 的 技术 。 
智能 摄像 机 的 突破 点 是 Richard Lyon 于 1981 年 发 明 的 光电 鼠标 。 该 发 明 把 
成 像 装 置 和 肯 人 式 处 理 单元 集成 为 紧凑 小 巧 的 系统 ， 首 次 真正 实现 了 智能 摄像 
机 。 它 使 用 了 16 个 像素 的 可 见 光 成 像 传感器 ， 该 传感器 上 也 集成 了 移动 检测 系 
统 ， 在 印 有 标记 的 纸 或 类 似 的 鼠标 垫上 能 跟踪 暗 区 内 的 光 点 移动 。20 世纪 80 年 
代 ， 这 种 鼠标 配备 在 施乐 系统 上 ， 成功 地 得 到 了 商业 化 和 销售 。 安 捷 伦 公 司 
(HP 公司 的 一 个 分 拆 公司 ) 于 1999 年 开发 出 了 一 款 高 速 高 分 辩 率 的 鼠标 摄像 
BL, AA 18 x18 个 像素 ， 每 秒 可 成 像 1500 帧 ， 采 用 一 片 内 置 DSP (数字 信号 处 
HEAR) 进行 实时 检测 并 跟踪 图 像 变 化 。 由 于 成 功 地 在 家 用 市 场 实现 了 商业 化 ， 
安捷伦 公司 的 鼠标 成 为 销售 最 广泛 的 智能 摄像 机 。Lyon 的 光电 鼠标 引领 了 一 个 
被 称 为 视觉 芯片 的 新 型 传感器 技术 领域 ， 在 Alireza Moini 1997 年 出 版 的 书 中 有 对 
它 的 详细 回顾 。 视 觉 蕊 片 ,， 或 称 为 智能 视觉 传 感 带 ,集成 了 图 像 获 取 和 并 行 处 
















































































© 法 国 的 Joseph Nicéphore Niépce 首次 发 明了 永久 照片 纸 ,这 种 最 早 的 摄影 过 程 需要 数 小 时 曝光 ，1839 
年 产生 了 最 早 的 商业 化 的 摄影 工具 ， 能 永久 保存 经 短 时 间 曝 光 的 肖像 照片 。 


























VI 智能 摄像 机 





理 ， 常 常 在 像素 级 实现 模拟 和 数字 电路 的 处 理 。 在 SO 年 代 后 期 ，Carver 
Meadyinru 引 入 神经 形态 概念 ， 描 述 集成 了 模拟 和 异步 数字 电路 的 VLSI (超大 规 
模 集成 电路 ) 系统 ， 可 以 模仿 生物 神经 系统 的 神经 结构 。 这 一 概念 彻底 变革 了 
计算 和 神经 生物 学 的 前 沿 ， 从 而 导致 了 一 个 新 的 工程 学 科 的 出 现 ， 目 标 是 设计 并 
实现 人 工 神经 系统 ， 如 视觉 系统 、 听 觉 处 理 需 或 自主 漫游 机 器 人 。 除 了 光电 上 鼠 
标 ， 基 于 利润 丰厚 的 市 场 ， 机 器 视觉 被 看 作 智 能 摄像 机 的 驱动 领域 。 自 从 80 年 
代 早 期 ， 很 多 公司 出 现 并 致力 于 制造 工业 应 用 的 廉价 视觉 系统 。 其 中 许多 公司 也 
出 现在 年 度 德国 光学 博览 会 上 。 

本 书 由 二 十 章 组 成 ， 并 分 为 八 个 部 分 。 

第 1 部 分 由 三 章 构成 ， 详 尽 地 介绍 了 智能 摄像 机 。 第 1 章 叙 述 从 智能 摄像 机 起 
源 到 当前 成 就 的 历史 演变 过 程 ; 第 2 章 给 出 智能 摄像 机 的 技术 定义 和 基于 系统 架构 
的 分 类 ; 第 3 章 描述 智能 摄像 机 的 技术 、 设 计 要 求 和 应 用 。 

第 2 部 分 以 两 章 的 篇 幅 提 供 了 智能 摄像 机 中 成 像 技 术 重 要 的 基础 内 容 。 第 4 E 
描述 了 光电 检测 器 、 像 素 以 及 图 像 传 感 器 的 信号 处 理 技 术 ; 第 5 章 刻 画 了 图 像 传 感 
器 的 架构 、 几 何 结构 及 读 出 技术 。 

第 3 部 分 由 三 章 组 成 ， 主 要 探讨 嵌入 式 视觉 问题 。 第 6 章 重 点 讨论 艇 人 式 计 算 
视觉 的 设计 与 应 用 问题 ; 第 7 章 描述 了 机 器 视觉 应 用 中 的 高 性 能 谍 入 式 计算 。 第 8 
章 给 出 立体 智能 摄像 机 的 应 用 和 奶 入 式 视 觉 设 计 。 

第 4 部 分 提供 了 三 种 计算 机 视觉 方法 在 智能 摄像 机 中 的 应 用 例子 。 第 9 章 概述 
智能 视频 摄像 机 的 自 校准 问题 ; 第 10 章 讲 述 了 智能 摄像 机 应 用 中 的 目标 分 制 和 变 
化 检测 技术 ; 第 11 章 描述 了 基于 机 入 式 硬件 的 目标 跟踪 技术 。 

第 5 部 分 由 四 章 组 成 ， 讨 论 分 布 式 智能 摄像 机 。 第 12 章 给 出 了 高 性 能 无 线 智 
能 摄像 机 的 设计 、 架 构 和 应 用 ; 第 13 章 针 对 大 型 传感器 网 络 探讨 地 理 注 册 和 传 感 
器 间 的 校准 问题 ; 第 14 章 描 述 大 规模 智能 摄像 机 网 络 的 管理 方法 ; 第 15 章 展 示 了 
立体 视觉 在 协同 摄像 机 网 络 中 的 应 用 方法 。 

第 6 部 分 选择 了 智能 摄像 机 的 三 方面 应 用 。 第 16 章 给 出 智能 摄像 机 的 机 器 视 
觉 应 用 ; 第 17 章 刻 画 了 视觉 监控 应 用 ; 第 18 章 描 述 基 于 车 载 摄 像 机 的 自动 化 
系统 。 

第 7 部 分 即 第 19 草 ， 强 调 了 智能 摄像 机 的 市 场 发 展 状况 。 作 者 通过 2008 德国 
光学 博览 会 上 的 访谈 获得 了 丰富 的 事实 和 数据 ， 阐 明智 能 摄像 机 当前 市 场 形势 及 
需求 。 

第 8 部 分 即 第 20 章 。 作 者 在 考虑 科学 领域 热点 、 应 用 需要 和 市 场 发 展 的 基础 
上 ， 展 示 了 智能 摄像 机 的 未 来 发 展 前 景 和 方向 。 

以 下 按 章 顺 序列 出 作者 。 
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Analog- to- Digital converter 

Address Event 

Address- Event Representation 
Automated Imaging Association 
Automated Identification System 
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Angle Of View 

Aspect- Scale- Context information 


Application- Specific Integrated Circuit 


Application- Specific Information Processing 


Charge- Coupled Device 


Complementary Metal Oxide Semiconductor 


Circle of Confusion 

Central Processing Unit 

Digital- to- Analog Converter 
Depth of Field 

Digital Signal Processor 
Dynamic Vision Sensor 
European Machine Vision Association 
First- In First- Out 

Falsely Identified Object 

Falsely Identified Tracker 

Field Of View 

Field Programmable Gate Array 
High Dynamic Range 

High- Performance Smart Camera 
Image of the Absolute Conic 


Internation Business Machines Corp. 


Joint Probabilistic Data Association Filter 


Intelligent Transportation Systems 


Kanade Lucas Tomasi point tracking algorithm 


Linear Array Picture Processor 
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Multiple Hypothesis Tracker 
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弥散 圆 
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动态 视觉 传感器 
欧洲 机 器 视觉 协会 
先进 先 出 
误 确 认 的 目标 

误 识别 的 追踪 器 

视 场 
现场 可 编程 门 阵列 
宽 动 态 范围 

高 性 能 智能 摄像 机 
绝对 二 次 曲线 的 影像 
国际 商用 机 器 公司 
联合 概率 数据 关联 滤波 
KLT 点 追踪 算法 

线性 阵列 图 像 处 理 器 
模型 驱动 的 体系 架构 
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缩 略 语 XIII 
MO Multiple Object 多 目标 
MT Multiple Tracker 多 路 跟踪 右 
MV Machine Vision 机 需 视 觉 
MX Multiple eXposure 多 次 曝光 
NASA National Aeronautics and Space Administration ”美国 国家 航空 航天 局 
NMOS N-type Metal Oxide Semiconductor N 型 金属 氧化 物 半 导体 
NSAD Normalized Sum of Absolute Differences 归 一 化 的 绝对 误差 和 
OpenCV Open Computer Vision library 开源 计算 机 视觉 库 
PASIC Processor ADC and Sensor Integrated Circuit 处 理 器 上 混合 ADC 和 传感器 的 集成 电路 
PCA Principal Component Analysis 主 成 分 分 析 
PDF Probability Density Function 概率 密度 函数 
PMOS P-type Metal Oxide Semiconductor P 型 金属 氧化 物 半导体 
PTZ Pan- Tilt- Zoom 云 台 
RCA Radio Corporation of America 美国 无 线 电 公司 
SDK Software Development Kit 软件 开发 工具 包 
SIMD Single Instruction Multiple Data 单 指令 多 数据 
SVM Support Vector Machines 支持 矢量 机 
TDI Time Delayed Integration FRY Ta] EIR AG 
TI Texas Instruments 德州 仪器 公司 
TVS Transient Vision Sensor 瞬 态 视觉 传感器 
VACE Video Analysis and Content Extraction 视频 分 析 与 内 容 提 取 
VC Video Components GmbH 视频 组 件 有 限 公 司 
VCA Video Content Analysis 视频 内 容 分 析 
VLSI Very Large Scale Integration 超大 规模 集成 电路 
WiCa Wireless Camera 无 线 摄像 机 
WSN Wireless Sensor Network 无 线 传 感 器 网 络 
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第 1 部 分 


智能 摄像 机 的 简介 


第 1 到 智能 摄像 机 : 历史 演变 


Ahmed Nabil Belbachir 和 Peter Michael Góbel 





摘要 : 本 章 回 顾 了 智能 摄像 机 的 历史 演变 ， 涵 盖 了 最 初 的 概念 到 当今 出 现 的 技 
术 。 在 定义 智能 摄像 机 后 ， 本 章 按照 历史 时 间 的 顺序 ， 介 绍 智能 摄像 机 被 开发 前 的 
一 些 概念 和 技术 。 在 明确 智能 摄像 机 起 源 的 基础 上 ， 展 现 了 它们 在 过 去 几 十 年 间 的 
科学 概念 和 技术 方面 的 突破 性 进展 。 




















1.1 智能 摄像 机 的 简介 与 定义 











从 传统 的 角度 看 ， 智 能 摄像 机 是 一 个 空 暗室 在 其 前 面具 有 洞口 ， 至 少 是 小 直径 
的 孔 ( 针 孔 ) 或 更 普通 的 镜头 系统 ， 其 后 是 镜面 或 焦 平 面 。 在 焦 平 面 位置 上 ， 可 
以 是 漫 反 射 的 屏幕 、 胶 卷 或 数字 传 感 絮 设备 ， 用 来 接收 来 自 摄像 机 前 方 场景 投射 的 
成 像 。Camera 一 词 来 自 拉 TX, 意思 是 室 或 房间 ; 形容 词 Smart 可 追溯 到 中 世纪 英 
语 ， 比 喻 清晰 而 快速 地 思考 或 表示 具有 智力 。 因 而 ， 短 语 smart camera 意味 着 有 智 
能 的 摄像 机 ， 是 一 种 能 比 单纯 摄取 图 像 做 更 多 工作 的 摄像 机 。 

由 于 业内 缺乏 精确 唯一 的 智能 摄像 机 定义 ， 开 发 者 和 生产 企业 提出 了 很 多 种 定 
义 。 与 我 们 的 看 法 一 致 ， 美 国 自动 成 像 协会 (AIA) 给 出 一 个 实用 化 的 智能 摄像 机 
定义 ， 包 括 三 个 共同 的 本 质 特征 来 体现 摄像 机 的 智能 : 

(D 集成 一 些 关键 功能 (如 光学 、 照 明 、 成 像 和 图 像 处 理 ) ; 

(Q2) 利用 处 理 器 和 软件 完成 一 定 级 别 的 计算 智能 ; 

O 在 无 人 工 干预 的 前 提 下 ， 有 能 力 执行 多 个 应 用 。 

进一步 ，AIA 按照 集成 度 把 视频 系统 分 为 三 类 产品 : 

D 智能 摄像 机 : 完全 或 近乎 完全 且 自 成 一 体 的 视频 系统 。 照 明和 光学 部 分 也 
可 不 集成 在 内 ， 但 图 像 处理 和 软件 程序 必须 被 包括 在 机 体内 。 

D 视觉 传感器 : 一 种 低 端的 智能 摄像 机 ， 其 性 能 也 可 接近 高 端 机 型 。 

@) 嵌入 式 视觉 处 理 器 : 即 摄像 机 与 外 部 计算 系统 捆绑 在 一 起 。 

虽然 这 部 分 给 出 的 分 类 机 制 具 有 实际 应 用 意义 ， 在 第 2 章 还 是 要 给 读者 呈现 其 
他 的 分 类 方法 。 本 章 从 更 广 的 视野 讨论 智能 摄像 机 的 历史 演变 ， 这 是 因为 我 们 认为 
从 相关 领域 收集 关联 信息 与 专注 讨论 智能 摄像 机 是 一 样 重要 的 。 因 此 ,在 1.2 节 将 
回顾 摄像 机 技术 的 起 源 。 接 着 ,在 1. 3 节 中 ， 将 呈现 早期 智能 摄像 机 的 概念 。 后 续 
的 1.4 节 中 ， 将 阐明 这 些 概 念 的 突破 。 最 后 在 1.5 节 中 ， 我 们 将 小 结 当前 智能 摄像 
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B 





机 及 其 应 用 。 
1.2 历史 回顾 : 早期 的 智能 概念 


乍 一 看 ， 摄 像 机 技术 似乎 是 20 世纪 的 成 就 。 然 而 ， 它 的 根源 可 追溯 到 公元 前 
5 世纪 〈 见 图 1.1) 。 因 而 ， 古 希腊 对 光 本 质 的 研究 可 谓 最 早 的 摄像 机 理论 "%] 。 哲 
学 家 阿 克 拉 戈 斯 的 恩 培 多 克 勒 (Empedocles of Acragas ， 公 元 前 492-432 ^E) 认为 ， 
“女神 阿美 罗 狄 带 用 四 种 元 素 造 了 人 的 眼睛 ， 人 眼睛 中 火 照 焰 的 光线 与 太阳 的 光线 
相互 作用 ， 从 而 产生 视觉 ”。 

墨 子 〈 公 元 前 470-391 F) 指出 光线 通过 针 孔 后 会 发 生 投射 倒置 ， 亚 里 十 多 
德 (公元 前 384-322 年 ) 描述 了 光线 通过 缝隙 或 小 和 孔 后 投射 的 效果 ， 并 指出 孔径 
越 小 ， 投 影 越 清晰 ; 最后， 欧 几 里 得 (公元 前 323-283 ^p) 指明 ， 光 沿 直 线 传播 。 

总 之 ， 上 述 贡献 可 归结 为 针 孔 原理 的 早期 描述 。 图 1. 2a 给 出 了 理论 上 的 理想 
针 孔 装置 ， 而 图 1. 2b 显示 了 当 和 孔径 d >0 时 ， 图 像 变 得 模糊 。 因 此 ， 孔 径 越 小 ， 图 
像 越 清 晰 。 然 而 ， 这 个 结论 在 某 一 特定 点 才 成 立 ， 在 此 点 处 的 光 散 射 又 会 引起 模 
糊 。 继 Josef Petzval (1807-1891 ^E) 之 后 ，Lord Rayleigh (1842-1919 ^E) 得 出 优 
化 孔径 为 d=1.9 VA, IEF d 是 针 孔 直径 ; /是 焦距 ; A 是 波长 (550nm) 。 与 正常 
透镜 物镜 的 五 值 范围 = [2, 8, =, 22] 相 比 ， 针 孔 照 相机 的 五 数值 =f/d ik 
到 了 很 高 的 值 ， 如 当 f=100mm，d =0.45mm 时 ,下 =222。 因 此 ， 景 深 表 示 为 被 摄 
主体 基本 清晰 的 距离 范围 ， 可 通过 弥散 圆 (CoC) 直径 计算 得 到 景深 值 (弥散 圆 是 
指 ， 在 观察 距离 为 25cm， 模 糊 圆 仍 可 被 人 眼 感知 作 一 点 ,产生 每 训 米 五 条 线 的 分 
辩 率 ， 见 图 1. 2b)。 作 为 经 验 规则 ，CoC 直径 最 大 限度 值 由 蔡司 公式 给 出 CoC = 
a/1730, o 是 相机 底片 对 角 长 度 。 男 一 种 CoC 的 依据 是 数字 传感器 像素 间 的 空间 距 
离 ， 典 型 范围 是 5 ~ 10pm。 不管 怎样 ， 针 和 孔 摄 像 机 的 原理 在 今天 仍 被 用 于 风景 摄 
影 与 核 医学 成 像 ( 针 筷 SPECT), 

阿拉 伯 科 学 家 Ibn Al- Haytham 最 先 在 他 的 《Book of Optics (光学 之 书 )》 中 精 
确 地 描述 和 分 析 了 人 眼 的 视觉 过 程 及 图 像 如 何在 人 眼中 形成 的 。 然 后 他 应 用 同样 的 
原理 ， 发 明了 上 暗室， 但 他 说 “我 们 没有 发 明 这 个 ”( 这 人 句 话 在 后 来 此 书 的 拉丁 文 版 
中 为 “Et nos non invenimus ita" ) 。 他 最 时 把 视觉 描述 为 发 生 在 大 脑 中 而 非 发 生 在 
眼睛 中 的 过 程 。Ibn Al- Haytham 认为 ， 既 不 是 因 物 理 形式 进入 眼睛 也 不 是 因 眼 睛 射 
出 光线 而 产生 视觉 ， 然 而 希腊 学 者 们 却 是 这 样 认为 的 。 他 在 实验 中 证 明 ， 光 线 从 暗 
室外 边 的 物体 上 的 每 一 点 出 发 ， 沿 直线 传播 投射 到 暗室 中 的 物 像 上 。 他 设计 了 最 早 
的 暗箱， 也 最 先 把 物理 现象 由 哲学 研究 转向 实验 研究 。150 年 后 ，Averroes 开辟 了 
神经 科学 ， 确 定 了 视网膜 的 感光 属性 并 描述 了 视觉 锅 官 。 在 中 国 ， 沈 括 (1031- 
1095 4E) 最 早 描述 了 暗室 。 达 芬 奇 ( Leonardo da Vinci, 1452-1519 4E) 给 出 了 关 
于 反光 物体 小 孔 成 像 的 初步 认识 ， 即 清晰 度 和 亮度 取决 于 光圈 孔径 。GCemma Frisius 
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摄像 机 的 时 间 简 史 : 从 小 孔 成 像 ， 经 瞳 室 照 相机 ， 
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a) b) 
图 1.2 暗室 针 孔 原理 的 理论 图 示 和 实际 中 小 孔径 成 像 图 示 


a) 上 暗室 针 孔 原理 的 理论 图 示 b) 实际 中 小 孔径 成 像 图 示 (由 于 小 孔 具 有 
一 定 直径 ， 图 像 变 得 模糊 ， 见 图 中 灰色 的 CoC PLE) 


成 像 ， 又 建议 画家 利用 暗室 绘画 。1604 年 ， 德 国 科 学 家 开 普 勒 最 早 使 用 拉丁 术语 
camera obscura, 10 世纪 以 来 ,成 像 暗室 模型 都 是 很 大 的 黑暗 房间 。17 世纪 晚期 ， 
Robert Boyle 和 胡 克 (Robert Hooke) 创建 了 第 一 个 便携 式 暗箱 。 

Jax, William Hyde Wollaston (1766-1882? Œ) 申请 了 “ 明 室 ”的 专利 ， 实 
际 上 是 晚期 暗室 的 再 发 明 。 给 出 一 个 明 室 ， 由 Bausch& Lomb Optical Co. , Roches- 
ter, NY (博士 伦 光学 公司 ， 罗 切 斯 特 , AA) 制造 ， 它 与 暗室 的 差异 在 于 不 采用 
黑暗 的 房间 (AMRA “HA ZS”), Wollaston 的 问题 在 于 操作 复杂 ， 于 是 在 1818 
年 ，Giovani Battista Amici (1786-1863 ^E) 推出 明 室 的 改进 版 ， 如 图 1.3 所 示 。 






































b) 
图 1.3 明 室 针 和 孔 原 理 的 理论 图 示 和 实际 中 小 孔 成 像 图 示 


a) 明 室 针 孔 原理 的 理论 图 示 b) 实际 中 小 孔径 成 像 图 示 
(由 于 小 孔 具 有 一 定 直 径 ， 图 像 变 得 模糊 ， 见 图 中 灰色 的 部 分 ) 





























Carl Friedrich Gauss (1777-1855 F) 于 1841 年 出 版 了 《Theory of Lenses ( fi 





O 此 处 应 为 1828 年 ， 原 书 有 误 。 一 一 译 者 注 
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头 理论 )》，18256 ^E, Joseph Nicephore Niepce (1765-1833 年 ) 因 首次 发 明了 永久 
照片 纸 ， 而 被 誉 为 摄影 发 明 家 。Louis Daguerre (1787-1851 年 ) 联合 Niepce， 提 出 
银 板 照相 法 (Daguerrotype process) ， 加 速 了 照相 显影 的 过 程 ， 与 此 同时 还 有 塔 尔 
TEER AUT LRA NA ABE (Calotype process) 。1851 年 ，Frederick Scott Archer (1813- 
1857 F) 发 明了 火 棉 胶 摄影 法 (Collodion process) ， 紧 接着 于 1871 4E, Richard 
Maddox 发 明了 明胶 省 化 银 干 版 法 (Silver bromide process), 7r i6 * AF George East- 
man (1854-1932 年 ) 创办 伊 斯 曼 柯达 公司 ， 极 大 地 推动 了 摄影 技术 的 广泛 应 用 。 

1891 年 ， 爱 迪生 (1847-1931 年 ) 发 明了 活动 图 像 摄影 机 ， 在 1913 ^F, Oskar 
Barack (1879-1936 年 ) 开发 出 原型 莱卡 相机 ( Ur- Leica) ——35mm 照相 机 。 
Vladimir Zworykin (1889-1982 年 ) 于 1923 年 发 明了 映像 真空 管 ，1934 年 他 又 发 明 
光电 摄像 管 。1948 年 ，Edwin Herbert Land (1909-1991 年 ) 以 他 本 人 在 1932 年 发 
明 的 偏光 滤波 器 为 基础 创造 了 偏光 板 工艺 。1950 F, RCA (美国 无 线 电 公 司 ) JF 
发 了 光 导 摄像 管 ， 这 是 一 种 单 色 的 摄像 真空 管 ， 与 其 他 摄像 管 相 比 ， 如 光电 摄像 
管 ， 它 重量 轻 、 体 积 小 且 耗 电 低 。 美 国 BCE (Bing Crosby, 1903-1977 年 ) 公司 实 
验 室 展示 了 由 John T. Jack Mullin 
(1913-1999 年 ) 开发 的 最 早 的 视频 记 
KREN; 1955 年 ， 该 实验 室 又 展示 了 
彩色 视频 记录 的 模型 。 

由 Bausch&Lomb Optical Co. , Roch- 
ester, NY 制造 的 明 室 如 图 1. 4 所 示 。 

1960 年 ，NASA 由 模拟 技术 转换 
为 数字 技术 ， 开 创 了 数字 通信 的 新 时 
代 。 早 在 以 传 感 需 阵列 为 基础 产生 的 
数字 静止 图 像 的 概念 出 现 之 前 ， 以 扫 
描 设 备 为 基础 的 数字 图 像 概念 和 数字 
视频 概念 就 已 经 出 现 了 。 喷 气 推动 实 
验 室 的 Eugene F. Lally 首次 公开 描述 
了 如 何 采用 马赛 克 图 像 传 感 器 产生 数 
字 域 照片 5 。 其 目的 是 为 执行 航天 
任务 的 宇航 员 提 供 机 载 导 航 信息 。 在 
航天 飞行 过 程 中 ， 马 赛 克 阵列 定期 记 
录 恒 星 和 行星 定位 的 静止 照片 ， 当 接 
近 行星 时 ， 为 绕 轨 运行 和 着 陆 提供 补 F14 外 Beusch & Lomb Optical Co. , 
充 测 距 信息 。 这 种 概念 包含 了 设计 摄 sp eee eer 
像 机 的 要 素 ， 也 预示 了 最 早 的 数字 摄 
像 机 。 固 体 成 像 起 始 于 20 世纪 60 年 代 ， 那 时 不 计 其 数 的 科研 团队 致力 于 NMOS, 
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PMOS 以 及 双 极 型 工艺 ， 且 取得 了 不 同 程度 的 成 功 W*”]，Morrisont*] 于 1963 年 报告 
了 能 测定 一 个 光斑 位 置 的 装置 ，IBM'”1 公 司 于 1964 年 推出 以 n-p-n 结 阵列 为 基础 
的 集成 半导体 扫描 器 。 像 素 一 词 大 约 在 1964 AEE OS!) | 美国 西屋 公司 于 
1966 年 公布 出 一 个 (50x50) 的 单 片 式 光敏 晶体 管 阵列 1。 

然而 ,， 所 有 这 些 传 感 絮 在 未 集成 的 状态 下 工作 ， 因 而 其 灵敏 度 很 低 。1967 4E, 
RCA 的 Weimer AU RJ CdS/CdSe 薄膜 电 晶体 ， 研 制 出 180 x 180 像素 的 传 感 
器 。 同 年 ， 仙 童 公司 的 Weckler 提出 了 以 光子 通 量 积分 模式 工作 的 p-n 结 ， 在 反问 
偏 置 的 p-n 结 电 容 中 收集 光电 流 ; 1968 年 ， 首 次 报道 了 (100x100) 像素 的 图 像 
传感器 被 制作 出 来 ，Weckler 把 它 命名 为 reticon 并 建立 了 Reticon AAU 。 

1968 年 ， 英 国 Plessey 公司 的 Noble*”| 描 述 了 几 种 自 扫描 硅 图 像 传感器 的 阵列 
结构 ， 并 且 在 1970 年 探讨 了 固定 图 形 噪 声 问题 "2 fk 1969 年 Boyle 和 Smith 提出 
第 一 个 电荷 耦合 器 件 (CCD ) 。TI 公司 的 工程 师 Willis Adcock 设计 了 无 胶卷 摄像 机 
并 于 1972 年 申请 专利 ， 但 并 不 清楚 是 否 之 前 已 有 人 设计 了 这 种 摄像 机 。1975 F, 
柯达 公司 1 的 工程 师 Steven Sasson 首次 研制 出 数字 摄像 机 ， 它 采用 了 由 仙 童 公司 
于 1973 年 开发 的 新 型 CCD 图 像 传感器 ”1 ， 重 约 8lb (3. 6kg) ， 把 黑白 图 像 记录 在 
盒 式 磁带 ， 分 辨 率 为 10000 像素 ， 于 1975 年 12 月 拍摄 了 第 一 张 图 像 ， 耗 时 23s。 
研制 原型 摄像 机 纯 属 于 技术 锯 炼 而 非 产品 化 。Sony 公司 于 1981 年 推出 Mavica 电子 
照相 机 。1985 年 ， 仙 童 公司 的 首 个 行 扫 描 摄 像 机 问世 ， 采 用 了 只 有 一 行 像素 的 传 
感 器 阵列 ; 同时 Pixar 公司 着 手数 字 图 像 处 理 。1986 年 ， 柯 达 公 司 推出 了 百 万 像素 
图 像 传感器 。 





























1.3 早期 的 智能 摄像 机 概念 


现 有 文献 中 没有 明确 指出 何 时 首次 出 现 了 智能 摄像 机 的 概念 。 这 一 概念 可 追溯 
到 军用 或 空间 应 用 ， 在 航天 飞机 中 ， 需 要 有 一 个 机 载 独 立 系统 来 解释 场景 。20 Tt 
纪 60 年 代 ， 出 现 了 这 样 的 想法 : 拥有 一 套 成 像 设 备 和 能 实时 解释 场景 的 处 理 单元 。 
1961 Æ, NASA 喷气 推进 实验 室 的 E. F. Lally 发 表 一 篇 论文 BE"1 | BH “Mosaic 
Guidance for Interplanetary Travel”( 星 际 旅行 中 的 马赛 克 导 航 )。 该 论文 在 美国 火箭 
协会 的 年 会 呈现 并 提出 人 控 火 星 任务 ， 其 中 包括 用 于 机 载 导 航 的 摄像 机 设计 ， 该 摄 
像 机 采用 马赛 克 阵 列 光电 检测 器 ， 其 输出 信号 在 数字 域 中 进行 处 理 。 这 是 数字 摄像 
概念 的 首次 出 现 ， 也 是 智能 摄像 机 的 早期 概念 。 
Hans Moravec ^ 报告 了 20 世纪 60 年 代 早 期 设计 的 一 辆 小 车 ， 具 有 导航 和 避 
障 能 力 。 这 辆 小 车 由 计算 机 遥控 ， 通 过 装备 在 小 车 上 的 电视 摄像 机 ， 计 算 机 能 控制 
小 车 运行 实际 的 简单 障碍 路 线 。 图 1. 5 所 示 是 这 种 小 车 于 1963 年 的 最 初 模型 图 片 。 
如 图 1.6 所 示 ， 一 只 电视 摄像 机 固定 在 小 车 上 。 主 要 因 局 限于 那个 时 代 的 计算 机 与 
转换 器 体积 ， 不 可 能 制造 紧凑 型 智能 摄像 机 。 把 图 像 从 电视 摄像 机 传送 至 A-D FE 
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换 器 〈 如 冰箱 大 小 ) ， 然 后 把 数据 线 接 人 至 充满 计算 设备 的 房间 以 便 进一步 处 理 和 
解释 信息 。 























&|1.5 1963 4j 





斯 坦 福 设计 的 小 车 


Tr 

















图 1.6 1975 年 载 有 电视 摄像 机 的 小 车 


1966 年 ，Runge 等 人 采用 分 立 元 件 " 实现 了 铝 子 视网膜 的 电子 模型 ， 如 图 
1.7 所 示 。 接 着 ，Fukushima 等 人 设计 了 另 一 种 视网膜 模型 ， 由 700 个 感光 器 组 成 
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离散 模拟 网 络 "]。 以 模拟 电路 为 基础 的 网 络 处 理 图 像 可 视 为 (智能 ) 超大 规模 集 
成 电路 视觉 处 理 的 开端 。 





图 1.7 Runge 等 人 的 铝 子 视网膜 ， 具 有 传感器 阵列 。 模 型 采用 
离散 模拟 网 络 “'， ， 锅 硫化 物 光 电 传感器 ， 视 角 约 40° 








Herbert Simon 在 20 世纪 50 年 代 中 期 已 经 预言 “20 年 内 ， 机 器 将 有 能 力 完 成 
人 所 能 做 的 任何 工作 ”。 在 不 到 20 年 的 时 间 内 ， 他 的 预言 在 机 器 人 技术 领域 得 到 
近似 验证 。 如 图 1. 8 所 示 ，Shakey 是 第 一 个 能 进行 动作 推理 的 移动 机 器 人 ; 斯 坦 福 
研究 院 人 工 智 能 研究 中 心 在 1966 ~ 1972 EFE T XPH A], HF Shakey 对 
环境 的 感知 和 建 模 能 力 有 限 ， 因 而 其 任务 是 完成 规划 、 路 径 发 现 和 简单 对 象 重 排 
序 。 在 20 世纪 60 年 代 末 的 一 期 《生命 科学 杂志 》 中 ，Shakey 被 引证 为 “ 首 个 电 
子 人 一 一 它 在 没有 收 到 来 自 地 球 的 指令 情况 下 ， 能 在 月 球 上 一 次 性 漫游 数 个 月 ”。 
Brodin 在 1980 年 发 表 的 一 篇 文章 中 报告 了 一 种 计算 机 接口 的 电视 系统 ， 取 名 SY- 
DAT， 它 在 1972 ~ 1974 年 期 间 建 成 于 瑞典 皇家 工学 院 仪器 实验 室 。 该 实验 室 的 主 
要 工作 包括 光电 二 极 管 阵列 与 红外 、X 射线 图 像 检测 器 设计 ; 信和 号 处 理 及 其 电路 ; 
内 建 处 理 功能 (智能 传感器 ) 的 专用 摄像 机 ; 人 机 接口 ; 实验 室 系 统 开 发 ， 计 算 
机 系统 及 软件 ， 这 些 都 是 智能 摄像 机 系统 的 早期 工作 。 
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图 1.8 Shakey 是 第 一 个 能 进行 动作 推理 的 移动 机 器 人 








1.4 智能 摄像 机 的 突破 


就 我 们 所 知 ， 术 语 “ 智 能 摄像 机 ”是 由 Ron Schneidermann 于 1975 E HW 
公布 。 他 描述 了 摄像 机 制造 商 采 用 的 自动 曝光 控制 技术 ， 其 主要 工作 是 开发 快门 控 
HAR (光圈 优先 系统 )。 

光电 鼠标 是 最 早 实现 的 智能 摄像 机 ， 把 成 像 设备 和 骨 入 式 人 处理 单元 结合 为 一 个 
紧凑 的 系统 。 这 种 光电 鼠标 在 1981 年 由 施乐 公司 的 Richard Lyon?" 428], FFF 
1983 年 获得 专利 权 '] 。Lyon 发 明 的 光电 鼠标 芯片 如 图 1. 9 所 示 ， 该 芯片 由 施乐 公 
司 制造 。 它 使 用 了 16 个 像素 的 可 见 光 成 像 传 感 髓 ， 该 传感器 上 也 集成 了 移动 检测 ， 
在 印 有 标记 的 纸 或 类 似 的 鼠标 垫上 能 跟踪 暗 区 内 的 光 点 移动 。 在 20 世纪 80 年 代 ， 
这 种 鼠标 成 功 地 得 到 了 商业 化 和 销售 ， 配 备 在 施乐 的 Star 办 公 系 统 、Interlisp 工作 
站 、 高 端 复 印 件 以 及 泰克 的 Smalltalk 工作 站 。 
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同 一 时 期 ，Steve Kirsch 
于 1982 年 推出 男 一 种 采用 红 
外 传感器 的 光电 鼠标 。 与 Lyon 
发 明 的 光电 鼠标 不 同 ，Kirsch 
的 鼠标 不 包含 摄像 机 。 它 是 把 
一 些 分 立 检 测 器 件 【红外 光电 
二 极 管 (LED)] 安装 在 电路 
板 上 的 阵列 ， 采 用 一 个 红外 
LED 和 一 个 四 象限 红外 传感器 i 
来 检测 方 格 线 ， 这 些 方 格 线 由 图 1.9 ERARE BERG, ASA AAE DIP 
一 种 吸收 红外 线 的 墨水 印 制 在 
特殊 的 金属 片上 。 和 鼠标 中 的 CPU 是 以 预测 算法 计算 方 格 上 的 速度 与 方向 为 基础 的 。 
在 20 世纪 80 年 代 ， 这 种 光电 鼠标 十 分 成 功 ，Kirsch 也 因此 建立 了 自己 的 公司 
鼠标 系统 公司 ， 把 这 种 光电 鼠标 与 Sun 及 其 他 工作 站 配套 ， 从 1984 年 开始 ， 其 至 
把 一 些 光 电 鼠 标 与 PC 绘图 软件 一 起 ， 与 PC 配套 销售 。 

EFK, 罗技 公司 于 1995 年 发 明了 轨迹 球 鼠 标 。 这 种 光电 鼠标 采用 布 满 特 丈 
纹路 结构 的 “marble” 大 球 ， 从 而 实现 光标 移动 检测 ， 缩 减 了 手 的 空间 移动 范围 。 
1999 年 ， 安 捷 伦 公司 (惠普 的 拆 资 公司 ) 开发 了 高 速 高 分 辩 率 的 鼠标 摄像 机 ， 具 
有 18 x18 个 像素 ， 每 秒 拍摄 1500 幅 图 片 ， 使 用 内 部 DSP 实时 检测 跟踪 图 像 变 化 。 
这 种 鼠标 在 家 用 市 场 上 获得 了 很 大 成 功 。 
































1.5 新 兴 的 智能 摄像 机 


正如 前 面 讨论 的 内 容 ， 光 电 鼠 标 是 销售 最 广泛 的 智能 摄像 机 。2005 年 ， 安 捷 
伦 公司 报 道 了 已 销售 第 400 万 个 光电 鼠标 。 在 20 世纪 80 年 代 中 期 ， 智 能 摄像 机 的 
成 功 把 工业 应 用 、 机 带 人 和 监控 领域 的 兴趣 提升 到 开发 超大 规模 集成 电路 和 般 入 式 
系统 的 先进 技术 层面 ， 目 的 是 制造 出 这 些 领域 的 专用 智能 摄像 机 。 

Lyon 发 明 的 光电 鼠标 ”开辟 了 新 兴 传 感 器 技术 和 视觉 芯片 领域 ,具体 内 容 可 
参考 Moini 的 专著 “| 。 视 觉 芯 片 或 称 为 智能 可 视 化 传感器 ， 集 成 了 图 像 获取 及 并 
行 处 理 技术 ,通常 把 模拟 和 数字 电路 应 用 于 像素 级 。 视 觉 芯 片 分 为 两 大 类 ， 空间 和 
时 空 视觉 芯片 。20 世纪 80 年 代 末 ，Carver Mead"” ”1 引入 神经 形态 电路 系统 概念 ， 
描述 了 包含 模拟 和 异步 数字 电路 的 超大 规模 集成 电路 系统 ， 该 系统 模仿 生物 神经 系 
统 的 结构 。 这 一 概念 彻底 变革 了 计算 和 神经 生物 学 的 前 沿 ， 导 致 了 一 个 新 的 工程 学 
科 出 现 ， 目 标 是 设计 并 实现 人 工 神 经 系统 ， 如 视觉 系统 、 听 觉 处 理 右 或 自主 漫游 机 
器 人 。 该 领域 被 称 作 “神经 形态 工程 ”。Carver Mead 创造 这 一 术语 是 为 了 命名 在 形 
式 或 形态 上 采用 生物 神经 系统 机 理 的 人 工 系统 。 第 4、5 章 将 提供 关于 像素 、 检 测 
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器 和 芯片 技术 的 详细 内 容 。 

最 早 的 空间 视觉 芯片 是 由 Misha Mahowaild 和 Carver Mead 于 1989 年 开发 的 硅 
视网膜 芯片 ”wi。 他 们 最 早 实现 以 硅 片 为 基础 的 生物 视觉 刻画 。Mahowaild 的 硅 视 
网 膜 计 算 模型 是 疹 椎 动物 视网膜 神经 末梢 层 ， 包 括 锥 状 细 胞 、 杆 状 细胞 和 双 极 细 
胞 。 后 来 ， 又 出 现 了 几 种 视觉 芯片 ， 如 Van der Spiegel 等 人 开发 的 止 形 电荷 耦合 器 
fF55!. Andreou Boahen JT Zz REI] ik) Etienne- Cummings 开发 的 单 片 立 体 视 
dus 0085! 。 时 空 视 觉 芯片 或 称 为 移动 检测 芯片 ， 兴 起 于 Lyon 的 光电 鼠标 | 。 
还 有 几 种 运动 检测 芯片 ， 如 Tanner 开发 的 光 流 运动 检测 芯片 "这 ] ，Delbruck 的 速率 
调制 运动 检测 传感器 ，Moini 等 人 开发 的 以 昆虫 视觉 为 基础 的 运动 检测 芯 
8!) Etienne- Cummings 等 人 的 运动 检测 器 芯片 5 ， 还 有 其 他 很 多 芯片 被 列 在 
参考 文献 [385] m. 

在 视觉 芯片 开发 的 同时 ， 也 在 探索 智能 视觉 传感器 技术 。1985 4E, Espedal "^ 
设法 为 机 器 人 接口 专用 摄像 机 ， 制 造 更 复杂 精巧 的 传 感 锅 件 以 便 使 这 种 “智能 ” 
机 器 人 能 解释 所 在 环境 的 方方面面 。 同 年 ，Buechli 等 人 中 提出 从 图 像 中 提取 相关 
数字 数据 以 实现 低 成 本 智能 摄像 机 ,设计 了 原型 智能 摄像 机 ， 并 在 计量 、 运 动 检测 
和 条 形 码 读 取 应 用 方面 进行 测试 。 

1986 ^F, Engle (Vision Components 公司 的 CEO) 展示 出 一 种 更 加 紧凑 的 智能 
摄像 机 。1990 年 ， 柯 达 制 定 Photo CD 标准 ， 同 时 VLSI Vision 推出 imputer3 ， 这 是 
一 种 以 CMOS 传感器 为 基础 ”的 智能 摄像 机 ， 如 图 1. 10 所 示 。 



































图 1.10 VLSI Vision 的 imputer3 体积 为 105 x 105 x 180mm， 以 英 特 
AREY 960 CPU 为 基础 设计 。 它 的 模块 化 概念 使 得 定制 的 组 件 可 以 与 








工业 外 设 直接 接口 (UGH LO. ADC, DAC 等 ) 
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受到 昆虫 视觉 的 启发 ，Francheschini 等 人 091 设计 并 开发 了 一 种 机 器 人 ， 可 通 
过 评估 自身 与 所 处 环境 的 相对 位 移 ， 进 行 单独 漫游 并 避 障 。 在 参考 文献 [182] 
中 ， 描 述 了 以 LAPP 和 PASIC 两 种 智能 传感器 为 基础 的 设计 架构 、 实 现 及 应 用 。 这 
两 种 设计 的 基本 思想 是 把 图 像 传感器 阵列 与 数字 处 理 器 阵列 集成 在 单个 芯片 之 上 。 
集成 处 理 器 的 摄像 机 消除 了 传统 摄像 机 中 顺序 读 取 图 像 的 瓶颈 ， 可 为 工业 检视 、 光 
学 特征 识别 和 机 器 人 视觉 等 类 似 任 务 提供 快速 、 简 约 、 经 济 的 解决 方案 。 

受到 早期 昆虫 视觉 处 理 的 启发 ，Bouzerdoum 等 人 提出 一 种 智能 超大 规模 集成 
电路 微 传感器 。 该 芯片 作为 一 种 实时 可 视 微 传 感 器 ， 最 初 被 用 于 自主 机 器 人 导航 的 
设计 ， 但 也 可 被 推广 到 其 他 应 用 ， 如 智能 摄像 机 、 智 能 后 视 镜 以 及 智能 防 撞 保 
险 杆 。 

1996 4E, Shapiro 9 概述 了 用 于 廉价 机 器 视觉 系统 的 智能 摄像 机 的 优势 。 同 
年 ，Easton'' 描 述 了 两 个 性 能 卓越 的 数字 视频 摄像 机 的 事例 ， 这 两 种 产品 均 可 改 
善 或 提高 产品 质量 检测 的 精度 。 前 一 种 摄像 机 包含 一 个 连续 扫描 CCD 和 一 个 内 建 
帧 存储 ， 无 需 闪 光 灯 、 机 械 快门 或 帧 同步 即 可 捕获 快速 移动 物体 的 高 分 辨 率 静 止 图 
像 。 第 二 种 摄像 机 集成 数字 信和 号 处 理 功 能 ， 改 善 动态 范围 、 彩 色 平 衡 和 网 像 细 节 ， 
使 得 被 检测 产品 的 色彩 、 对 比 度 更 加 准确 真实 。Barth'“”| 等 人 采用 摄像 云 台 技术 ， 
设计 了 一 种 能 快速 获得 全 景 图 像 的 系统 。 该 系统 利用 快速 行 扫描 摄像 机 取代 传统 的 
慢 速 区 域 摄 像 机 。 男 外 ， 他 们 还 以 智能 传 感 原理 为 基础 开发 了 由 粗 到 细 的 全 景 摄像 
技术 。 

在 参考 文献 [542] 中 ， 考 虑 到 柱状 的 海洋 离 岸 工程 结构 和 光 带 传感器 的 关联 
性 ， 提 出 遥控 车 辆 的 相对 运动 估计 问题 。 其 中 ， 给 出 被 测试 “在 空中 ”的 实验 装 
置 。 该 装置 以 一 个 智能 摄像 机 为 基础 ， 受 Transputer 网 络 驱动 ， 摄 像 机 中 把 光敏 元 
器 件 和 三 个 图 像 处 理 器 集成 于 单一 芯片 。 

Hemanto 等 人 52 取得 通过 表面 进行 透明 流体 和 固体 层 厚 遥测 技术 的 专利 ， 该 
技术 已 被 应 用 在 Canpolar East 的 智能 摄像 机 (VE-262 ) ， 并 已 证 明了 该 技术 可 有 效 
测量 冰 层 厚度 ， 适 合 飞机 结 冰 的 可 靠 检测 。 当 激光 束 指向 冰 层 表面 时 即 可 实现 冰 层 
厚度 测量 。 由 于 激光 在 冰 层 中 反射 ， 最 终 在 表面 形成 反光 图 案 。 根 据 反 射 图 案 的 尺 
十 和 介质 的 反射 率 ， 通 过 简单 公式 计算 ， 便 可 得 到 层 厚 。 按 工业 界 的 观点 ， 从 20 
世纪 90 年 代 早 期 开始 ，Imaging Industries 公司 便 是 提供 智能 摄像 机 的 先锋 。2000 
年 ，Cognex 公司 收购 了 该 公司 。2007 年 ， 飞 利 浦 公司 研究 人 员 推 出 的 高 性 能 无 线 
智能 摄像 机 '”] ， 在 低 功 耗 和 高 质量 成 像 方面 对 硬件 提出 挑战 。 该 产品 以 SIMD 智 
能 视频 分 析 处 理 器 和 作为 本 地 主机 的 8051 单片机 为 基础 。 无 线 通 信 采 用 IEEE 
802. 15. 4 标准 协议 。 此 摄像 机 的 目标 应 用 是 成 为 网 络 内 的 自主 智能 摄像 机 (更 多 
细节 参见 第 12 章 ) 。 

Vision Components 公司 是 一 家 智能 摄像 机 制造 商 ， 生 产 各 种 不 同 的 智能 摄像 
机 。SBC4018 是 该 公司 2006 年 推出 的 一 款 智 能 摄像 机 ， 如 图 1.11 Bray, 体积》 
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80mm x 60mm, 3JH 3200MIPS 的 TMS320DM640 DSP， 以 及 彩色 黑白 兼容 的 图 像 传 
感 器 ， 分 辨 率 从 480 x640 至 1024 x768 像素 。 














&|1.11 Vision Components 公司 的 SBC4018。3200MIPS 的 
TMS320DM640 DSP 和 高 分 辨 率 性 能 为 这 种 先进 的 摄像 机 提 
供 了 宽 范 围 的 应 用 
































后 续 内 容 将 展现 智能 摄像 机 的 基础 、 技 术 、 应 用 及 市 场 。 未 来 ， 随 着 处 理 能 
更 加 强大 ， 智 能 摄像 机 会 越 来 越 重要 。 我 们 期 盼 那样 的 时 代 。 最 后 ， 作 为 小 结 ,我 
们 引用 Don Braggins (担任 着 英国 机 器 视觉 协会 的 执行 主席 ) 关于 智能 摄像 机 的 
有 趣 论 述 : 

在 我 看 来 ， 智 能 摄像 机 是 人 们 利用 视觉 的 首选 方式 ， 是 一 种 成 本 和 风险 都 很 低 
的 方式 。 随 着 类 似 GigEvision 技术 出 现 ， 没 有 必要 每 个 摄像 机 中 都 拥有 一 个 处 理 
器 ， 而 且 我 提倡 围绕 产品 线 的 方方面面 来 使 用 摄像 机 ， 便 于 阻止 向 发 生 缺 陷 的 产品 
进一步 投入 生产 价值 。 在 20 世纪 90 年 代 的 一 天 ， 一 位 原先 的 客户 给 我 打 电 话 ， 问 
我 是 否 知道 可 替代 Imaging Industries 公司 的 供应 商 。 我 问 他 们 发 生 了 什么 问题 ， 
他 回答 ， 严 格 地 说 没什么 问题 ,但 本 周 我 需要 6 台 摄 像 机 ， 他 们 不 能 及 时 供 货 。 事 
实 是 他 们 在 制造 塑料 瓶 时 出 现 了 产品 问题 ， 虽 然 他 们 知道 问题 是 什么 ， 但 一 段 时 间 
内 不 能 解决 ， 因 此 他 们 临时 要 丢弃 有 缺陷 的 塑料 瓶 。 我 认为 这 种 情况 正 是 需要 智能 
摄像 机 的 地 方 一 一 我 认为 他 们 仅仅 主要 保留 了 市 场 工具 或 一 由 “橡皮 膏 ”， 而 不 是 
以 长 期 的 、 全 厂 范 围 为 基础 的 最 佳 解决 方案 。 























© http://www. braggins. com, 
© Imaging Industries 公司 是 20 世纪 90 年 代 智能 摄像 机 的 供应 商 。 现 在 属于 Cognex 公司 。 

















523 智能 摄像 机 : 基础 与 分 类 
Yu Shi 和 Fábio Dias Real 


摘要 : 从 20 世纪 90 年 代 后 期 开始 ， 智 能 摄像 机 迅速 普及 并 得 到 市 场 的 认可 , 
尤其 是 在 监控 和 机 器 视觉 领域 。 智 能 摄像 机 是 一 种 视觉 系统 ， 它 的 功能 不 再 局 限于 
获取 照片 或 录制 视频 。 由 于 微 处 理 占 的 功能 越 来 越 强大 ， 并 且 为 其 开发 了 各 种 专用 
的 智能 图 像 处 理 和 模式 识别 算法 ， 所 以 现在 智能 摄像 机 不 仅 能 进行 移动 检测 、 目 标 
测量 、 车 牌 识 别 ， 其 至 还 能 识别 人 的 行为 。 在 许多 应 用 中 ， 它 们 都 是 建立 自主 控制 
系统 的 根本 要 素 ， 有 望 成 为 未 来 流行 的 智能 传感器 。 在 本 童 中 ， 我 们 将 给 出 智能 摄 
像 机 的 定义 ， 并 分 析 其 不 断 普及 的 原因 ， 也 会 讨论 它 的 特点 和 优势 。 最 后 ， 根 据 智 
能 摄像 机 的 系统 架构 ， 尝 试 性 地 对 其 进行 分 类 。 
































2.1 简介 





人 的 六 大 感觉 包括 视觉 、 嗅 觉 、 味 觉 、 听 觉 、 触 觉 和 非 接触 感觉 ， 其 中 视觉 能 
在 短 时 间 内 获得 周围 环境 的 大 量 信息 。 然 而 ， 理 解 这 些 信 息 不 是 一 件 易 事 ， 因 为 这 
要 求 脑力 必须 能 快速 、 可 靠 地 处 理 信 息 。 智 能 摄像 机 的 最 终 目 标 是 模仿 人 的 眼睛 和 
大 脑 的 功能 ， 通 过 人 工 智 能 解释 “看 见 ”的 事物 。 

20 世纪 90 年 代 开 始 ， 许 多 研究 团体 、 大 学 以 及 视频 监控 与 制造 行业 中 的 工业 
部 门 都 对 智能 摄像 机 产生 了 极 大 的 兴趣 。 这 是 因为 智能 摄像 机 比 传统 (标准 ) 摄 
像 机 具有 更 显著 的 优点 : 它 在 一 个 紧凑 的 系统 里 ， 完 成 图 像 捕 获 的 同时 实现 图 像 分 
析 以 及 事件 或 模式 识别 。 由 于 半导体 处 理 技 术 、 风 入 式 计 算 机 视觉 技术 的 飞速 发 
展 ， 以 及 社会 经 济 因 素 诸如 安全 与 保密 、 产 能 与 成 本 节约 需求 的 增长 ， 智 能 摄像 机 
变 得 越 来 越 普 及 。 当 今 ， 智能 摄像 机 类 产品 已 广泛 应 用 ， 尤 其 是 视频 监控 、 工 业 机 
器 视觉 、 游 戏 与 玩具 、 机 器 人 和 人 机 接口 领域 。 

能 摄像 机 的 构建 涉及 计算 机 视觉 、 机 器 视觉 与 嵌入 式 系统 的 应 用 技术 。 就 技 
而 言 ， 计 算 机 视觉 和 机 器 视觉 关注 的 是 实现 一 种 装置 或 系统 ， 该 装置 或 系统 
能 看 见 图 像 并 从 图 像 中 提取 有 用 信息 ， 进 而 根据 提取 的 信息 作出 某 种 决策 。 骨 入 式 
系统 技术 关注 的 则 是 实现 低 功 耗 、 低 成 本 的 实时 系统 ， 该 系统 具有 很 好 的 鲁 棒 性 ， 
并 能 在 现实 环境 中 可 靠 地 工作 。 而 智能 摄像 机 是 针对 机 器 视觉 应 用 实现 计算 机 视觉 
技术 的 能 入 式 系统 。 构 建 智 能 摄像 机 是 一 种 挑战 性 的 尝试 ， 要 求 具 有 多 方面 的 技 
术 ,， 包 括 固体 图 像 传 感 顺 、 光 学 、 计 算 机 架构 ， 甚 至 还 有 机 械 工程 技术 。 迄 今 ， 
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止 ， 智 能 摄像 机 都 是 为 特殊 应 用 目的 而 设计 的 ， 不 能 通用 ， 因 此 ， 一 个 好 的 商业 模 
型 很 重要 ， 要 能 确保 终端 用 户 的 接受 及 市 场 的 认可 。 消 费 者 与 社会 使 用 的 产品 和 技 
术 的 集成 度 会 越 来 越 高 ， 处 理 能 力 会 越 来 越 强 大 ， 智 能 化 程度 也 会 越 来 越 高 CR 
能 摄像 机 的 三 个 关键 属性 ) ， 训 无 疑问 ， 未 来 智能 摄像 机 会 变 得 更 流行 、 更 先进 ， 
成 为 无 所 不 在 的 实时 自动 化 信息 系统 的 组 成 部 分 。 

本 章 和 第 3 草 则 在 给 出 智能 摄像 机 的 概貌 。2.2 节 将 讨论 智能 摄像 机 的 基础 ， 
尝试 给 出 其 技术 定义 并 讨论 其 特征 和 优势 。2. 3 节 中 ， 根 据 设 计 实现 智能 摄像 机 的 
核心 部 件 特定 应 用 信息 处 理 模 块 ( Application Specific Information Processing, ASIP) 
所 涉及 的 系统 架构 和 技术 ， 对 不 同型 号 的 智能 摄像 机 进行 分 类 。 在 第 3 章 中 ， 介 绍 
智能 摄像 机 的 硬件 器 件 与 搁 术 ， 并 讨论 一 些 先进 的 智能 摄像 机 装置 与 应 用 。 






































2.2 智能 摄像 机 的 基础 


最 早 的 商用 智能 摄像 机 可 追溯 到 20 世纪 80 年 代 2 。 早 期 智能 摄像 机 的 感知 、 
处 理 能 力 及 应 用 都 是 很 有 限 的 ， 主 要 用 来 执行 机 融 的 视觉 任务 。 现 代 的 智能 摄像 机 
具有 强大 的 处 理 能 力 ， 已 经 成 功 地 应 用 于 很 多 工业 领域 。 最 近 ， 大 量 关 于 智能 摄像 
机 的 学 术 和 工业 应 用 的 研究 ， 加 快 了 它 的 普及 速度 。 在 这 部 分 ， 我 们 讨论 智能 摄像 
机 的 定义 以 及 它 流行 的 原因 。 


2.2.1 什么 是 智能 摄像 机 ? 


智能 摄像 机 是 具备 特定 功能 的 一 种 摄像 机 ， 它 不 仅 能 摄取 图 像 ， 更 重要 的 是 它 
能 理解 图 像 中 发 生 了 什么 ， 在 某 种 情况 下 还 能 采取 有 利于 用 户 的 措施 。 例 如 ， 在 大 
门 的 开放 时 间 以 外 的 时 间 发 生 非 法 侵入 的 情况 时 ， 寿 一 个 处 于 监控 状态 的 摄像 机 能 
触发 报警 或 发 送 E- mail 至 用 户 ， 那 么 就 有 资格 称 为 “智能 摄像 机 ”， 因 为 它 能 指出 
发 生 了 什么 (检测 到 非法 问 入 ) 并 能 采取 行动 (触发 报警 或 发 送 E- mail) 。 

虽然 这 样 很 好 地 描述 了 什么 是 智能 摄像 机 ， 但 并 非 智 能 摄像 机 的 技术 定义 。 在 
公共 领域 , 媒体、 摄像 机 制造 商 和 开发 者 等 提供 了 很 多 智能 摄像 机 的 “定义 ”， 但 
似乎 没有 约定 俗 成 的 定义 。 很 多 定义 强调 智能 摄像 机 具有 内 置 的 图 像 处 理 能 力 ， 但 
我 们 认为 这 些 都 不 够 准确 ， 因 为 几乎 所 有 的 数字 摄像 机 ， 无 论 消费 类 还 是 工业 类 ， 
均 有 内 置 的 图 像 处 理 能 力 。 在 我 们 看 来 ， 区 分 是 否 是 智能 摄像 机 的 依据 是 内 置 图 像 
处 理 器 所 执行 任务 的 性 质 和 它 产生 的 主要 结果 或 输出 。 基 于 本 书 的 目的 ， 我 们 把 
“智能 摄像 机 ”或 “有 智力 的 摄像 机 ”定义 为 蔡 入 式 视觉 系统 ， 它 能 从 捕获 的 图 像 
中 提取 特定 的 应 用 信息 ， 同 时 能 产生 事件 描述 或 作出 决定 ， 以 便 用 于 智能 自动 化 






































”施乐 公司 在 1981 年 发 明光 学 鼠标 。 
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系统 。 

在 此 定义 中 ， 有 三 个 重要 的 方面 ， 分 析 如 下 : 

(D “视觉 系统 ” 指 智能 摄像 机 有 能 力 去 “看 见 ” 或 摄取 图 像 。“ 视 觉 ” 不 局 限 
于 可 见 光 ， 也 包括 其 他 光谱 ， 如 红外 光 和 热 成 像 。“ 系统 ” 指 摄像 机 所 有 部 件 不 必 
从 物理 形式 上 装 入 单个 摄像 机 壳 体 中 ， 尽 管 严格 来 讲 应 该 这 样 做 。 

(“ 般 入 式 ” 指 智能 摄像 机 作为 符 入 式 系统 ， 采 用 了 所 有 必要 的 部 件 ， 如 微 处 
理 需 〈 可 能 有 多 个 ) 、 存 储 器 、 电 源 以 及 通信 接口 ， 从 而 能 以 自主 自动 的 方式 发 挥 
作用 。 

© “进行 事件 描述 或 作出 决定 ” 指 智能 摄像 机 的 主要 作用 不 是 产生 高 质量 图 像 
或 视频 来 供 人 们 欣赏 ， 而 是 检测 预定 事件 是 否 发 生 ， 并 作出 相应 的 行为 。 

应 该 注意 ， 具 有 内 置 图 像 处 理 能 力 的 摄像 机 不 一 定 就 是 智能 摄像 机 ， 应 取决 于 

它 进行 图 像 处 理 的 目的 。 很 多 消费 类 数字 摄像 机 、 摄 录 机 以 及 其 他 通用 摄像 机 都 具 
有 重要 的 内 置信 号 和 信息 处 理 能 力 ， 例 如 自动 聚焦 、 上 自动 白 平 衡 、 自 动 曝光 控制 、 
自动 对 焦 和 图 像 压 缩 等 功能 。 然 而 ， 这 些 功能 大 多 主要 用 来 产生 高 质量 网 像 以 供 人 
们 欣赏 、 打 印 ， 或 者 有 效 传输 。 另 外 ， 智 能 摄像 机 中 图 像 处 理 的 主要 目的 是 为 自动 
化 系统 中 的 其 他 设备 产生 事件 描述 并 作出 决定 。 显 然 能 体现 这 一 点 的 是 智能 摄像 机 
两 个 最 普遍 的 应 用 : 视频 监控 和 工业 机 融 视觉 。 如 果 说 常规 摄像 机 是 “光线 入 ， 
图 像 出 ” ， 那 么 智能 摄像 机 就 是 “光线 人 ， 信 息 或 决定 出 ”。 
Fd 2. 1 显示 了 典型 智能 摄像 机 的 简化 功能 结构 。 光 学 部 分 确保 光线 的 有 效 收 
集 。 图 像 捕获 模块 一 般 由 国体 图 像 传感器 与 相关 电路 或 元 器 件 组 成 ， 保 证 从 光线 转 
化 为 数字 图 像 阵列 。ASIP 模块 是 智能 摄像 机 最 本 质 的 核心 部 件 。 它 的 目标 通常 不 
是 提供 高 质量 图 像 来 供 人 们 欣赏 或 打印 ， 而 是 试图 自主 理解 和 描述 图 像 中 发 生 了 什 
么 ， 在 智能 控制 系统 中 做 出 更 好 的 决定 。 通 信 接 口 和 1O 端口 接收 来 自用 户 或 主机 
的 命令 或 指令 ， 进 而 给 用 户 或 智能 系统 发 送 数 据 或 决定 。 
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图 2.1 典型 智能 摄像 机 的 简化 功能 结构 [ASIP (信息 处 理 专用 模块 ) ] 


如 果 将 图 像 捕获 模块 比 作 智能 摄像 机 的 眼睛 ， 那 么 ASIP 模块 就 是 智能 摄像 机 
的 大 脑 ， 它 像 一 台电 脑 一 样 完成 了 摄像 机 的 智能 化 。 硬 件 方面 ，ASIP 一 般 由 一 个 
或 多 个 具有 关联 内 存 (联想 记忆 ) 的 微 处 理 器 、 通 信和 总 线 及 其 他 电路 或 部 件 组 成 。 
根据 这 个 基本 结构 和 ASIP 的 硬件 配置 ， 智 能 摄像 机 可 以 分 为 几 个 大 类 ，2. 3 节 中 
将 会 详细 讨论 。 
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ASIP 模块 中 的 微 处 理 需 可 以 是 通用 的 CPU (Central Processing Unit， 中 央 处 理 
at), DSP (Digital Signal Processor, fh FEE) | FPGA (Field Programmable 
Gate Array， 现 场 可 编程 门 阵列 ) | WR | LT LL Ii Ast A Se PY HI ab 
理 需 。 第 3 章 中 会 详细 讨论 这 些 处 理 器 。 软 件 方面 ，ASIP 运行 高 效 、 自 主 的 
视频 分 析 算 法 来 分 析 捕 获 图 像 、 提 取 有 用 信息 、 模 式 识 别 、 事 件 检 测 ， 最 终 产 
生 决 策 。 不 同 的 应 用 ,视频 分 析 软 件 的 复杂 度 是 不 一 样 的 。 运 动 检测 分 析 软 件 
比较 简单 而 人 类 姿势 识别 和 行为 描述 分 析 软 件 就 比较 复杂 。 设 计 和 开发 智能 摄 
像 机 最 关键 的 问题 在 于 选择 合适 的 、 能 高 效 运行 算法 的 ASIP 硬件 平台 。 所 以 ， 
在 最 终 选 择 硬件 和 软件 时 要 综合 考虑 业务 需要 、 性 能 指标 及 商业 利益 等 方面 的 
问题 。 

20 世纪 90 年 代 开 始 ， 智 能 摄像 机 已 逐渐 普及 并 得 到 市 场 认 可 。 由 于 很 容易 提 
供 个 人 电脑 、 模 拟 监控 摄像 机 、 视 频 图 像 采 集 卡 等 设备 ， 所 以 对 于 研究 者 和 开发 者 
来 说 ， 将 这 些 设备 和 部 件 集 成 在 一 起 ， 形 成 一 个 “智能 摄像 机 开发 平台 ”， 在 此 平 
台 上 ， 可 实现 应 用 、 测 试 和 计算 机 视觉 方法 和 技术 的 开发 。90 年 代 末 ， 以 APS 
(Active Pixel Sensing， 有 源 像 素 传 感 器 ) 技术 为 基础 的 固态 CMOS 图 像 传 感 器 的 出 
现 是 智能 摄像 机 发 展 史 上 的 一 个 里 程 碑 。 之 前 ， 大 多 数 摄像 机 采用 CCD (Charge- 
coupled Device, 电荷 耦合 器 件 ) 芯片 组 作为 摄像 机 前 端 。 然 而 仅 有 少量 公司 能 
j^ CCD 芯片 组 。CMOS 图 像 传感器 可 以 利用 和 半导体 忆 片 相同 的 处 理 技 术 来 生产 
加 工 ， 这 就 意味 着 有 许多 芯片 制造 商都 能 够 生产 这 种 图 像 传 感 器 ， 也 就 意味 着 会 有 
更 多 的 选择 和 竞争 ， 价 格 就 会 日 趋 下 降 。CMOS 图 像 传感器 的 出 现 使 研发 人 员 构 建 
摄像 机 或 智能 摄像 机 时 不 用 再 从 零 开始 〈 如 可 以 将 CMOS 图 像 传 感 带 和 DSP 或 FP- 
GA 连接 在 一 起 ， 再 添加 一 个 通信 接口 即 可 ) ， 也 不 用 再 依赖 商业 化 的 摄像 机 。 另 
外 一 些 智能 摄像 机 技术 和 市 场 增长 的 因素 如 下 rs ， 

CD 大 规模 集成 技术 和 骨 入 式 系 统 技术 的 进步 。 摩 尔 定律 不 断 地 改进 着 成 像 仪 
和 微 处 理 咒 的 性 能 ， 尺 寸 越 来 越 小 ， 价 格 越 来 越 便宜 。 骨 入 式 系统 的 设计 也 越 来 越 
成 熟 ， 甚 至 可 以 用 于 关键 任务 。 

D 计算 机 视觉 特别 是 舰 入 式 计算 机 视觉 技术 的 进步 。 开 放 的 计算 机 视觉 资源 
为 更 广泛 的 智能 摄像 机 开发 提供 了 有 力 的 支持 ， 例 如 OpenCV PE, 

© 工业 和 学 术 界 对 计算 机 视觉 和 视频 监控 技术 的 关注 度 越 来 越 高 。 

大 量 的 IEEE 年 会 和 研讨 会 讨论 有 关 智 能 摄像 机 、 般 入 式 计算 机 视觉 和 视觉 监控 锯 
课题 。 

@ 社会 安全 保障 问题 提高 了 对 视频 监控 智能 摄像 机 的 要 求 。9. 11 事件 后 ， 视 
觉 监控 包括 智能 监控 受到 了 更 为 显著 的 关注 ， 也 得 了 工业 界 和 政府 更 有 力 的 经 费 
文 持 。 

© 在 机 器 视觉 工业 行业 ， 对 生产 力 和 质量 的 高 追求 刺激 了 智能 摄像 机 的 发 展 ， 
尤其 刺激 了 制造 业 的 发 展 。 
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2.2.2 智能 摄像 机 的 样 例 


现实 生活 中 ， 有 许多 智能 摄像 机 的 应 用 样 例 ， 特 别 是 在 视频 监控 和 工业 机 器 视 
觉 领域 。 工 业 机 器 视觉 领域 可 能 是 智能 摄像 机 最 成 熟 的 应 用 领域 ， 可 以 执行 条 形 人 码 
识别 、 零 件 检验 、 表 面 探伤 、 故 障 检测 、 物 品 的 计数 和 分 类 等 任务 。 视 频 监控 领域 

智能 摄像 机 主要 可 以 应 用 于 运动 检测 、 入 侵 检测 、 人 和 群 特征 分 析 和 和 车牌 识 别 等 
EP 

图 2.2 所 示 就 是 来 自 Intellio 公司 的 一 个 智能 摄像 机 图 例 。Intellio 公司 的 
ILC-2109 是 一 款 安 全 监控 摄像 机 。 它 利用 具有 XGA 分 辨 率 (1024 x768) 的 CMOS 
图 像 传感器 作为 捕获 装置 ， 白 天 和 夜间 都 可 以 进行 工作 。 机 身 携 带 的 ASIP 模块 能 
进行 各 种 类 型 的 事件 检测 如 运动 检测 、 遗 留 物 检测 、 入 侵 检 测 和 人 和 群 特 征 分 析 。 
Intellio 公 司 还 生产 用 于 交通 监 
控 的 摄像 机 。 智 能 摄像 机 的 
另 一 个 例子 是 索尼 公司 的 
XCI- SX19 型 摄像 机 。 这 款 摄 
像 机 采用 具有 SXGA 分 辨 率 
(1280 x 1024) 的 CCD 图 像 
传感器 作为 捕获 装置 ， 采 用 
AMD 芯片 组 GX533 400MHZ 
微 处 理 器 作为 ASIP 的 内 核 。 
这 个 处 理 需 运行 的 是 Monta 
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Vista Linux 实时 操作 系统 ， 性 图 2. 2 智能 摄像 机 图 例 ，Intellio 公司 
能 良好 ， 易 扩展 。 通 信 接 口 的 ILC-210 (图 片 由 Intellio 公司 提供 ) 




















包括 VGA 显示 器 、 以 太 网 、 
USB 及 RS232 接口 。 这 款 摄像 机 人 允许 原始 设备 制造 商 和 系统 集成 商 开 发 各 种 工业 
机 器 视觉 应 用 系统 。 

智能 摄像 机 除了 可 以 用 于 视频 监控 和 工业 机 器 视觉 领域 外 ， 还 可 以 应 用 于 其 他 
很 多 领域 如 驾驶 员 辅 助 系统 、 医 疗 研究 TERE, BRT, Bo. ABA 
面 、 玩 具 和 机 器 人 等 。 本 书 第 3 章 和 第 6 章 将 会 展示 更 多 智能 摄像 机 应 用 的 样 例 。 


2.2.3 智能 摄像 机 的 特征 和 优势 
智能 摄像 机 和 普通 的 摄像 机 如 CCTV 摄像 机 、 网 络 摄像 机 、 工 业 视 频 摄像 机 及 


























O  Intellio 公司 智能 摄像 机 。 信 息 来 源 于 Intellio 公司 网 站 ， 访 问 日 期 为 2009 年 1 月 。 
”索尼 公司 第 一 代 智能 摄像 机 ,信息 发 布 在 索尼 公司 网 站 ,访问 日 期 为 2009 年 1 月 。 


























20 智能 摄像 机 

















其 他 的 通用 摄像 机 相 比 ， 外 观 相 似 ， 但 是 性 能 特征 有 显著 区 别 。 这 些 性 能 特征 使 摄 
像 机 智能 化 ， 且 用 途 更 为 广泛 。 这 些 基 本 特征 如 下 : 

CD 智能 摄像 机 中 定义 的 ASIP 模块 如 图 2. 1 所 示 。 这 个 模块 包括 一 个 或 多 个 高 
效 的 专用 肯 入 式微 处 理 器 ， 这 些 处 理 带 运行 的 是 特别 为 之 设计 的 实时 图 像 处 理 和 模 
式 识别 算法 。 例 如 在 车 牌 自 动 识 别 系统 中 ，ASIP 模块 由 DSP 芯片 组 成 ， 世 片 算法 
可 以 检测 和 分 割 车 牌 区 域 以 便 主 动 、 自 动 、 实 时 地 识别 车 牌 上 的 数字 和 字母 。 

D 因为 智能 摄像 机 最 基本 的 功能 并 非 是 产生 令 人 赏心悦目 的 照片 或 视频 ， 而 
是 要 从 图 像 中 抽取 有 用 的 信息 并 做 出 决策 ， 所 以 其 输出 占用 的 带宽 非常 低 。 例 如 在 
成 功 的 车 牌 识别 案例 中 ， 智 能 摄像 机 每 几 秒 就 输出 几 个 字 节 代表 数字 或 字母 。 要 求 
的 输出 带宽 低 ， 对 于 无 线 智能 摄像 机 来 说 非常 重要 (参考 第 12 Xi), 。 如 一 些 智 能 
摄像 机 可 能 需要 以 压缩 形式 或 较 低 分 辩 率 偶尔 向 其 他 设备 传输 视频 。 也 可 选择 非 智 
能 摄像 机 如 CCTV 摄像 机 ,产生 并 向 中 央 计 算 机 发 送 高 分 辩 率 视频 ， 以 便于 处 理 、 
识别 或 易于 观看 。 但 这 种 情况 下 ， 摄 像 机 输出 需要 很 大 的 带宽 。 

© 一 些 智能 摄像 机 可 以 针对 特定 的 应 用 进行 编程 以 完成 不 同 的 任务 。 例 如 视 
频 监 控 智 能 摄像 机 可 以 编程 进行 各 种 类 型 的 事件 检测 如 入 侵 检测 、 遗 留 物 检测 以 及 
被 盗 物 品 检测 。 这 种 重复 编程 是 可 能 的 ， 因 为 ASIP 模块 中 的 微 处 理 需 可 以 被 重复 
编程 。 

@ 低 功 耗 。 对 于 电池 供电 的 智能 摄像 机 来 说 ， 低 功 耗 非 常 重要 。 

O 体积 小 。 小 体积 的 摄像 机 更 容易 安装 部 署 。 在 进行 安全 监控 应 用 时 摄像 机 
有 可 能 需要 被 隐藏 起 来 ， 这 时 小 体积 摄像 机 更 有 优势 。 

要 讨论 智能 摄像 机 的 优点 ， 我 们 不 能 直接 拿 它 和 传统 的 摄像 机 (如 CCTV 摄像 
机 ) 相 比 。 传 统 的 摄像 机 主要 功能 就 是 视频 捕获 ， 且 已 经 达到 了 非常 高 的 水 平 。 
但 是 我 们 可 以 在 视频 监控 或 机 器 视觉 应 用 系统 中 ， 通 过 比较 智能 摄像 机 和 传统 摄像 
机 执行 任务 的 情况 ， 来 研究 智能 摄像 机 的 优势 。 例 如 假设 需要 为 道路 拥挤 收费 系统 
提供 一 个 车 牌 自 动 识别 方案 。 我 们 可 能 会 提议 采用 智能 摄像 机 ， 或 者 也 可 以 采用 非 
智能 摄像 机 ， 但 非 智 能 摄像 机 需要 通过 电线 或 网 络 连 接 到 通用 计算 机 或 中 央 服 务 融 
上 。 第 一 种 方案 中 ， 智 能 摄像 机 架设 到 路 口 的 支架 上 ， 束 可 以 开始 捕获 图 像 、 识 别 
车 牌 并 将 识别 出 来 的 字符 冲 发 送 到 道路 拥挤 收费 系统 。 第 二 种 方案 中 ， 非 智能 摄像 
机 亦 需 要 架设 到 路 口 进行 图 像 捕获 并 把 图 像 传输 的 到 计算 机 后 进行 车 牌 识别 。 这 种 
背景 下 ， 我 们 能 更 公平 地 分 析 智 能 摄像 机 的 优势 。 

CD 智能 摄像 机 在 哪里 捕获 信号 ， 就 可 以 在 哪里 进行 信号 图 像 处 理 ， 这 时 的 信 
号 质量 是 最 好 的 。 避 免 了 由 于 反复 的 数 - 横 转 换 、 横 - 数 转换 、 网 络 错误 及 视频 压缩 
引起 的 信号 衰减 。 

D 智能 摄像 机 采用 高 性 能 微 处 理 器 (如 DSP、FPGA)， 可 以 执行 大 数据 量 的 
言 号 和 网 像 处理 。 像 FPGA 这 样 的 处 理 顺 可 以 提供 大 规模 并 行 处 理 能 力 满 足 实时 处 
理 要 求 。 而 通用 计算 机 如 PC 不 适合 经 常 执行 高 速 信号 和 图 像 处 理 任务 。 
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© 智能 摄像 机 使 “主动 视觉 ”更 容易 进行 ， 这 意味 着 可 以 主动 地 、 动 态 地 控 
制图 像 传 感 器 和 捕获 单元 以 获得 高 质量 图 像 〈 不 是 为 了 人 们 欣赏 而 是 为 了 之 后 便 
于 处 理 ) 。 主 动 视觉 给 图 像 捕获 带 来 了 更 多 的 自主 权 和 灵活 度 ， 能 更 好 地 控制 图 像 
获取 过 程 。 

D 智能 摄像 机 是 自主 系统 ， 一 旦 校准 不 需要 过 多 干预 。 

O 智能 摄像 机 是 自主 的 ， 大 大 简化 了 智能 系统 的 设计 和 管理 ， 例 如 自动 道路 
拥挤 收费 系统 。 根 本 原因 是 智能 摄像 机 所 含 部 件 少 。 

© 通过 进行 图 像 处 理 和 模式 识别 ， 智 能 摄像 机 大 大 减少 了 需要 传送 到 高 级 系 
统 的 数据 量 ， 有 效 地 节省 了 摄像 机 输出 端 带 宽 。 

CO 智能 摄像 机 的 体积 小 ， 在 实际 应 用 中 更 容易 安装 部 署 。 某 些 场合 ， 如 机 器 
视觉 应 用 中 ， 这 是 一 个 非常 重要 的 要 素 。 

© 可 靠 性 高 〈 一 定 程度 ) ， 这 是 因为 设备 数量 少 ， 集 成 度 高， 数据 转换 和 传 
输 少 。 

(9) 由 于 微 处 理 器 内 置 并 能 自主 工作 ， 智 能 摄像 机 特别 适合 应 用 于 智能 网 络 型 
或 分 布 式 视觉 系统 中 。 智 能 摄像 机 分 布 式 处 理 的 主要 优势 在 于 中 央 处 理 系 统 ， 可 以 
避免 大 信息 量 的 传输 。 实 际 上 ， 分 布 式 智能 摄像 机 网 络 近来 引起 了 学 术 界 和 工业 界 


























的 广泛 关注 。 
@ 许多 情况 和 应 用 中 ， 从 长 远 来 看 ， 智 能 摄像 机 比 基 于 PC 的 或 复杂 视觉 系统 
更 节省 成 本 。 


智能 摄像 机 不 仅仅 是 一 个 摄像 机 。 现 在 很 普遍 的 PC 的 光电 鼠标 就 是 一 个 最 好 
的 例子 。 许 多 光电 鼠标 盒 里 都 能 入 了 一 个 微型 数字 视频 摄像 机 。 它 利用 强 光 照射 鼠 
标 所 在 物体 的 表面 ， 并 以 1500 次 /s 的 频率 捕捉 图 像 。 然 后 ， 鼠 标 里 的 智能 图 像 处 
理 电路 进行 图 像 优 化 ， 分 析 连 续 两 帧 图 像 之 间 的 差异 进而 计算 出 鼠标 是 如 何 移动 
的 。 利 用 这 种 差异 就 可 以 移动 屏幕 上 的 光标 。 光 电 鼠 标 很 好 地 从 三 个 方面 说 明了 智 
能 摄像 机 的 优点 : 中 它 是 一 个 独立 摄像 机 ， 在 一 个 单 甬 人 式 设 备 里 具有 摄像 和 处 理 
功能 ; @) 摄 像 机 不 仅仅 能 为 消费 者 提供 拍摄 照片 或 视频 的 功能 ， 还 能 产生 一 个 特征 
矢量 (x 或 了 方 向 的 运动 矢量 ) 表示 物体 (这 里 指 的 是 鼠标 ) 的 位 移 ; OMHE BE 
摄像 机 并 不 局 限于 小 众 市 场 而 是 可 以 广泛 地 推广 〈 人 机 接口 ) 。 智 能 摄像 机 有 望 成 
为 未 来 世界 中 无 处 不 在 的 信息 系统 的 一 个 重要 组 成 部 分 ， 可 以 作为 输入 设备 和 跟踪 
设备 ， 也 可 作为 通信 子 系统 5 。 

然而 智能 摄像 机 并 非 十 全 十 美的 ， 和 其 他 视觉 系 统 应 用 相 比 ， 智 能 摄像 机 应 用 
系统 也 有 一 些 缺 点 : 

CD 尽管 智能 摄像 机 已 经 逐渐 普及 ， 技 术 也 在 不 断 进 步 ， 但 是 它 仍然 不 太 成 熟 。 
智能 摄像 机 只 有 在 机 器 视觉 领域 中 才 有 重要 的 应 用 和 出 色 的 表现 。 

D 传统 的 摄像 机 解决 方案 比 智能 摄像 机 解决 方案 更 容易 上 手 ， 因 为 普通 摄像 
机 和 计算 机 都 是 标准 组 件 ， 容 易 得 到 和 维护 。 
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@) 连接 通用 计算 机 的 传统 摄像 机 比 智 能 摄像 机 的 灵活 性 高 。 
(p 智能 摄像 机 通常 只 能 提供 有 限 的 用 户 接口 。 


2.3 智能 摄像 机 的 分 类 


在 搜索 引擎 中 搜索 “智能 摄像 机 ”， 会 出 现 大 量 的 关于 “智能 摄像 机 ”的 链 
接 。 不 同 的 摄像 机 制造 商 、 研 究 者 、 开 发 者 和 系统 集成 商 对 智能 摄像 机 有 不 同 的 定 
义 甚至 不 同 的 分 类 ， 让 人 搞 不 清楚 究竟 什么 是 智能 摄像 机 ， 它 属于 什么 范畴 。 没 有 
一 个 明确 的 技术 定义 ， 也 就 很 难 有 好 的 分 类 方法 。 本 节 中 ， 我 们 尝试 将 视觉 系统 进 
行 分 类 ， 然 后 再 对 智能 摄像 机 进行 分 类 。 这 种 分 类 是 以 2. 2. 1 节 中 提 到 的 智能 摄像 
机 的 定义 及 系统 结构 为 基础 的 。 特 别 要 考虑 ASIP 模块 的 硬件 实现 和 ASIP 与 图 像 捕 
获 前 端的 集成 水 平 。 
智能 摄像 机 一 种 简单 的 分 类 方法 就 是 根据 其 功能 或 应 用 来 分 类 ， 可 以 分 为 智能 
机 噩 视觉 摄像 机 、 智 能 监控 摄像 机 和 智能 汽车 摄像 头 。 这 种 分 类 方法 显著 的 优点 就 
是 简单 、 清 楚 地 说 明了 摄像 机 的 用 途 ， 但 是 不 能 深入 了 解 摄像 机 的 构造 ， 不 知道 它 
究竟 使 用 的 是 何 种 舱 入 式 系统 结构 。 男 外 ， 一 些 智 能 摄像 机 可 以 进行 编程 或 反复 编 
程 以 满足 不 同 的 用 途 ， 这 种 情况 下 根据 功能 或 应 用 的 分 类 方法 也 显得 过 时 了 。 

最 近 出 现 了 多 种 智能 摄像 机 分 类 方法 ”1 。 参 考 文献 [388] 中 智能 摄像 机 
分 为 三 类 : 人 工 视网膜 、 基 于 PC 的 系统 及 独立 智能 摄像 机 。 这 种 分 类 没有 考虑 分 
布 式 智 能 摄像 机 ， 而 且 不 论 基于 PC 的 系统 是 否 被 认为 是 智能 摄像 机 ， 这 种 分 类 方 
法 都 是 有 问题 的 。 参 考 文献 [447] 中 智能 摄像 机 也 分 为 三 类 : 单 片 智能 摄像 机 、 
分 布 式 智能 摄像 机 及 网 络 智能 摄像 机 。 这 种 分 类 方法 过 分 强调 了 分 布 式 和 网 络 智 能 
摄像 机 ， 并 未 太 多 解释 目前 市 场 上 常见 的 几 种 类 型 的 单 片 智能 摄像 机 。 


2.3.1 视觉 系统 的 分 类 


视觉 系统 或 人 工 视觉 系统 ， 是 以 计算 机 为 基础 的 设备 或 系统 ， 其 硬件 〈 如 传 
感 器 、 处 理 恬 、 计 算 机 、 网 络 ) 和 软件 (计算 机 视觉 算法 ) 协同 工作 ， 执 行 类 似 
人 类 视觉 的 任务 。 视 觉 系 统 可 以 分 为 三 类 ; 

CD RADE SE. HEARSE h HA TREE UT ASIP 处 理 任 务 。 它 们 通常 紧 
姿 性 更 高 ， 性 能 更 高 ( 因为 在 多 数 情况 下 ， 骨 入 式 处 理 絮 比 通用 台式 CPU 处 理 能 
力 更 高 )， 但 灵活 度 不 够 。 茶 些 情 况 下 ， 骨 入 式 人 硬件 可 能 就 是 插入 骸 入 式 视觉 系统 
主机 的 一 张 扩 展 卡 。 藤 入 式 视 觉 系统 广泛 运用 于 机 需 视 觉 、 机 器 人 、 汽 车 和 其 他 新 
兴 应 用 中 。 诅 入 式 视觉 系统 可 以 进一步 分 为 两 类 ; 

a. 单 装置 系统 ， 包 括 消费 型 数字 摄像 机 、 工 业 标准 摄像 机 和 智能 摄像 机 。 智 
能 摄像 机 将 图 像 捕 获 和 ASIP 模块 集成 到 一 个 单独 的 设备 上 。 

pb 紧凑 型 视觉 系统 。 这 些 系统 通常 包括 两 部 分 : 一 个 摄像 头 和 紧邻 摄像 头 的 
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一 个 戏 入 式 装置 ， 它 们 通过 专用 数据 总 线 或 通信 接口 连接 在 一 起 。 摄 像 头 可 能 会 执 
行 部 分 ASIP 处 理 ， 或 者 交 给 舱 入 式 处 理 装 置 执行 ASIP 处 理 任务 。 此 系统 在 相关 文 
献 中 也 被 称 为 智能 摄像 机 。 

Q 基于 计算 机 的 通用 视觉 系统 。 这 些 系 统 利用 计算 机 CPU 执行 ASIP 处 理 任 
务 ， 人 允许 使 用 通用 摄像 机 ， 通 过 图 像 采集 卡 或 常用 的 通信 接口 与 计算 机 连接 在 一 
起 。 这 种 系统 一 般 比 较 笨 重 ， 实 时 处 理 能 力 差 ， 但 灵活 度 高 ， 常 用 于 消费 和 工业 领 
域 如 视觉 监控 和 机 顺 视 觉 应 用 领域 。 

( 网 络 视觉 系统 。 这 些 系 统 通 过 网 络 ， 管 理 和 控制 多 个 摄像 头 。 其 中 的 每 个 
摄像 头 可 能 是 衣 人 式 系统 或 是 基于 PC 的 系统 。 网 络 视觉 系统 有 望 用 于 未 来 智能 视 
觉 监控 和 安全 系统 及 信息 收集 系统 中 。 


2.3.2 智能 摄像 机 的 分 类 


正如 2.2.1 节 中 所 述 ，ASIP 是 智能 摄像 机 最 基本 和 最 关键 的 部 件 。 它 包括 一 
个 或 多 个 般 入 式微 处 理 器 、 所 支持 的 内 存 、 数 据 总 线 和 其 他 部 件 。 它 的 目的 是 提供 
一 个 有 效 的 计算 平台 ， 可 以 运行 高 效 的 智能 图 像 处 理 算法 和 模式 识别 算法 。ASIP 
是 智能 摄像 机 的 核心 部 件 。 

严格 地 讲 ， 智 能 摄像 机 就 是 一 个 特殊 类 型 的 乱入 式 视 觉 系 统 ， 其 中 包括 了 所 有 
必 备 的 系统 部 件 : 图 像 传 感 器 、 捕 获 端 、ASIP 、 通 信 接 口 和 IO 接口 ， 这 些 部 件 都 
被 集成 到 一 个 实际 的 摄像 机 这 体内 。 然 而 也 有 另外 一 些 其 他 的 舱 入 式 视觉 系统 被 划 归 
为 智能 摄像 机 ， 特 别 是 2. 3. 1 节 中 描述 的 紧凑 型 视觉 系统 ， 虽 然 它们 看 起 来 不 是 独立 
摄像 机 。 事 实 上 ， 在 学术 界 和 研究 文献 中 ,许多 这 些 系 统 都 被 认为 是 智能 摄像 机 。 

分 布 式 智能 摄像 机 最 近 引 起 了 研究 人 员 的 大 量 关 注 。 分 布 式 智能 摄像 机 通常 包 
含 网 络 连接 的 多 台 摄 像 机 ， 这 些 摄像 机 要 么 是 智能 的 ， 要 么 是 传统 的 摄像 机 。 某 种 
情况 下 ， 这 些 网 络 摄 像 机 被 看 做 是 一 个 单 虚 拟 智能 摄像 机 ， 系 统 ASIP 和 其 他 部 件 
是 由 摄像 机 和 网 络 拓扑 协作 完成 的 。 

以 上 述 的 讨论 为 基础 ， 我 们 建议 将 智能 摄像 机 分 成 三 类 : 集成 智能 摄像 机 、 紧 
凑 系 统 智 能 摄像 机 以 及 分 布 式 智能 摄像 机 。 如 图 2.3 所 示 的 集成 智能 摄像 机 又 可 分 
为 三 类 。 将 紧凑 型 智能 摄像 机 和 分 布 式 智能 摄像 机 纳入 这 种 分 类 是 有 争议 的 ， 但 是 
这 种 分 类 基本 包括 了 大 部 分 的 智能 摄像 机 和 实际 的 商用 产品 。 

D 集成 智能 摄像 机 。 这 是 真正 的 智能 摄像 机 ， 可 以 分 为 三 类 . 

a. 片上 智能 摄像 机 或 单 片 智能 摄像 机 。 

b. RARE HERE RAL 

c. 独立 智能 摄像 机 。 

(2) 紧凑 系统 智能 摄像 机 。 

O 分 布 式 智能 摄像 机 。 

图 2.3 中 ， 从 上 到 下 ， 智 能 摄像 机 的 ASIP 和 图 像 捕获 器 件 的 集成 度 由 高 到 低 
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独立 智能 
摄像 机 


图 2.3 基于 集成 度 的 智能 摄像 机 分 类 (从 上 到 下 集成 度 降低 ) 








排列 ， 而 灵活 度 和 复杂 度 却 由 低 到 高 增长 。 灵 活性 高 使 智能 摄像 机 可 以 进行 灵活 编 
程 以 满足 不 同 应 用 要 求 ， 复 杂 度 指 的 是 摄像 机 配置 的 复杂 程度 (例如 单 片 智能 摄 
像 机 是 最 简单 的 ，ASIP 和 图 像 捕 获 器 件 集 成 在 一 个 芯片 或 相同 的 芯片 上， 其 芯片 
数目 或 者 说 装置 数目 是 最 少 的 ) 。 随 着 垦 入 式 硬 件 和 软件 技术 的 不 断 进步 ， 集 成 智 
能 摄像 机 的 灵活 度 、 性 能 和 市 场 吸 引力 都 大 大 提高 了 。 

单 片 智 能 摄像 机 可 以 在 芯片 上 全 部 或 部 分 地 实现 固态 图 像 传感器 如 CMOS 图 像 
传感器 的 ASIP 功能 。 衣 人 式 智 能 摄像 机 指 的 是 做 入 到 另外 一 个 装置 如 移动 电话 或 
光电 鼠标 中 的 智能 摄像 机 。 独 立 智能 摄像 机 无 论 从 外 观 上 还 是 概念 上 都 是 最 自然 态 
的 智能 摄像 机 。 紧 凑 系 统 智能 摄像 机 是 一 个 谍 人 式 视 觉 系统 ， 通 常 包括 两 部 分 : 一 
个 摄像 机 ， 可 能 是 传统 摄像 机 也 可 能 是 包含 了 部 分 ASIP 模块 功能 的 摄像 机 ; 一 个 
和 摄像 机 紧 紧 相 邻 的 包括 ASIP 模块 和 L/O 接口 的 装置 。 分 布 式 智能 摄像 机 由 网 络 
连接 在 一 起 的 几 个 摄像 机 或 智能 摄像 机 组 成 ， 整 个 系统 有 时 可 以 被 看 做 是 一 个 单 虚 
拟 智能 摄像 机 ， 不 能 在 每 个 节点 提供 ASIP 功能 ， 但 可 以 通过 分 布 式 网 络 提供 。 

接 下 来 我 们 详细 讨论 这 五 种 类 型 的 智能 摄像 机 。 

表 2.1 展示 了 这 五 种 智能 摄像 机 的 一 些 典型 应 用 。 

2.3.2.1 单 片 智能 摄像 机 

单 片 智能 摄像 机 可 以 在 芯片 上 全 部 或 部 分 地 实现 固态 图 像 传感器 ， 如 CMOS 图 
像 传感器 的 ASIP 功能 。 可 以 说 ， 和 CCD 传感器 相 比 ，CMOS 图 像 传 感 器 最 大 的 优 
势 在 于 : 在 同一 块 芯片 上 包含 了 图 像 传 感 阵 列 和 智能 图 像 处 理 电路 ， 即 智能 传 感 
恬 。 它 甚至 可 以 在 每 个 像素 里 嵌入 图 像 处 理 电 路 ， 产 生 智 能 像素 ， 成 为 图 像 处 理 的 
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新 典范 。CMOS 图 像 传感器 的 特点 使 单 片 智能 摄像 机 成 为 可 能 ， 可 以 实现 一 个 真正 
的 片上 系统 。 单 片 智能 摄像 机 ， 有 时 也 被 称 为 人 造 视 网 膜 ， 主 要 优点 包括 高 效率 、 
低 功 耗 、 装 置 少 和 体积 小 。 例 如 VISoc 单 片 智 能 摄像 机 ! 在 单 芯 片上 集成 了 一 个 
320 x256 像素 的 CMOS 图 像 传感器 ， 一 个 RISC 处 理 器 ， 一 个 视觉 协 处 理 器 和 1/0 
接口 。 这 种 智能 摄像 机 的 缺点 是 由 于 大 量 的 硬 连接 而 导致 缺乏 灵活 性 ， 模 块 化 设计 
^p DY RHE AES (和 标准 图 像 传感器 的 生产 成 本 比较 而 言 ) 。 


表 2.1 智能 摄像 机 的 类 型 、 典 型 特征 和 应 用 案例 































































































类 型 典型 特征 应 
在 图 像 传感器 的 同一 芯片 上 集 
单 片 智 能 摄像 机 玩具 ， 信 息 传感器 
片 智能 摄像 成 了 ASIP 功能 ， 功 耗 低 ， 体 积 小 mots IPSE 
嵌入 到 另 一 个 设备 如 移动 电话 | ”光学 鼠标 和 指纹 识别 器 ， 带 有 摄像 
嵌入 式 智能 摄像 机 
RARER 中 的 摄像 机 机 的 移动 电话 
“普通 ”智能 摄像 机 ， 是 单 过 " 
独立 智能 摄像 机 工业 机 器 视觉 ， 人 机 界 
wn 体 摄像 机 
在 紧邻 的 嵌入 式 系统 上 实现 
紧凑 系统 智能 摄像 机 安全 ， 交 通 流量 监控 ， 机 器 视觉 
ASIP 功能 
系统 ASIP 的 部 分 通过 网 络 拓扑 | ”普及 的 智能 视频 监控 ， 工 业 机 器 视 
4 能 摄像 机 
OO 结构 补偿 觉 ， 无 处 不 在 的 信息 采集 系统 











2.3.2.2 RARE ER 

RA SOPRA USE EK A BI — i ah e i HP RED, A RL BR SE 
全 隐藏 到 另 一 个 设备 中 ， 人 们 甚至 意识 不 到 它 的 存在 。 如 基于 视觉 的 光学 鼠标 和 指 
纹 识别 器 ， 以 及 用 在 机 器 人 和 汽车 系统 中 的 摄像 机 。 一 些 移动 电话 带 有 摄像 头 ， 可 
以 阅读 和 识别 条 形 码 ， 或 可 以 识别 其 他 公司 、 产 品 的 类 似 码 ， 这 个 码 可 以 指导 用 户 
找到 该 公司 或 产品 的 网 页 ， 显 示 在 手机 屏幕 上 。 这 种 智能 摄像 机 中 ，ASIP 的 功能 
可 以 通过 一 个 专用 处 理 器 完成 ， 也 可 以 通过 众 入 式 摄 像 机 的 处 理 器 来 完成 。 和 能 人 式 
智能 摄像 机 经 党 成 为 新 应 用 和 新 产品 尤其 是 移动 设备 的 幕后 推手 。 

2.3.2.3 独立 智能 摄像 机 

独立 智能 摄像 机 可 能 是 最 自然 、 最 普通 的 智能 摄像 机 了 ， 特 别 是 在 机 絮 视 觉 领 
域 ， 智 能 摄像 机 应 用 已 经 比较 成 熟 ， 且 具有 坚实 的 市 场 实力 。 它 们 看 起 来 像 传统 摄 
像 机 ， 更 像 CCTV 摄像 机 或 通用 工业 摄像 机 。 由 专用 的 能 入 式 处 理 器 和 智能 算法 完 
成 ASIP 功能 。 许 多 摄像 机 运行 实时 操作 系统 以 简化 摄像 机 设计 ， 并 改进 了 用 户 界 
面 。 独 立 智 能 摄像 机 的 样 例如 图 2. 2 所 示 。 
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2.3.2.4 紧凑 系统 智能 摄像 机 

典型 地 ， 紧 凑 系 统 智能 摄像 机 就 是 通过 专用 电缆 或 通信 接口 连接 在 附件 的 一 个 
独立 、 外 置 的 专用 图 像 处 理 设备 上 的 标准 摄像 机 。 这 个 摄像 机 完成 图 像 捕获 功能 ， 
有 时 也 完成 部 分 ASIP 功能 ， 如 预 处 理 任务 以 减少 数据 量 ， 或 进行 特征 提取 。 其 余 
的 系统 ASIP 功能 由 外 部 设备 完成 。 这 类 摄像 机 的 优点 是 摄像 机 是 标准 化 的 ， 价 格 
便宜 ， 易 于 替换 升级 。 内 存 、 存 储 器 及 其 他 资源 的 日 益 丰 富 ， 使 外 部 处 理 设备 的 处 
理 能 力 日 益 增 强 。 这 类 摄像 机 多 用 于 安全 或 交通 流量 分 析 等 视频 监控 系统 中 。 工 业 
机 器 视觉 领域 , 这 类 智能 摄像 机 被 称 为 紧 竣 视觉 系统 (Compact Vision System, 
CVS) ， 如 美国 国家 仪器 公司 的 NI CVS-145x 摄像 机 2 。 一 些 所 谓 的 紧凑 系统 智能 
摄像 机 实质 上 是 以 PC 为 主机 的 智能 摄像 机 ， 其 外 部 处 理 单元 通常 是 专用 的 图 像 处 
理 卡 或 是 插入 PC、 计 算 机 内 部 扩展 覃 的 扩展 卡 。 这 类 智能 摄像 机 好 像 在 学 术 界 很 
受 欢 迎 。 事 实 上 ， 经 常 提 到 的 普林斯顿 大 学 W. Wolf 等 人 的 智能 摄像 机 项 目 研 发 的 
是 以 PC 为 主机 的 智能 摄像 机 ， 可 以 用 来 进行 人 机 交互 和 视频 应 用 时 的 实时 姿势 识 
别 。 他 们 的 系统 包含 几 个 摄像 机 ， 每 个 摄像 机 都 和 插入 主机 PCI SEAS KAYE ZS 
的 TriMedia 视频 处 理 卡 相连 。PC 智能 摄像 机 有 很 高 的 灵活 性 和 更 好 的 用 户 界面 。 

2.3.2.5 分 布 式 智能 摄像 机 

由 于 网 络 、 传 感 器 网 络 和 无 线 通信 技术 的 发 展 ， 分 布 式 或 网 络 智 能 摄像 机 近来 
引起 了 学 术 界 和 工业 界 的 广泛 关注 。 网 络 中 摄像 机 的 拍摄 区 域 可 能 有 重奏 ， 也 可 能 
没有 重合, 但 这 些 摄像 机 拍摄 的 图 像 经 过 联合 处 理 就 可 以 获得 常规 的 ASIP 功 
AES) 。 有 时 ， 这 种 分 布 式 智能 摄像 机 网 络 被 认为 是 一 种 单 虚拟 智能 摄像 机 ， 尤 其 
是 在 视频 分 析 或 摄像 机 协作 完成 ASIP 功能 时 。 这 种 情况 下 ， 摄 像 机 网 络 能 获得 比 
单个 摄像 机 独立 工作 时 更 好 的 性 能 。 这 种 分 布 式 视觉 系统 展现 了 一 种 新 颖 的 、 强 大 
的 计算 平台 ， 有 望 解决 在 单 片 智能 摄像 机 中 唱 遇 的 许多 难题 。 仔 细部 署 多 个 摄像 
机 ， 有 助 于 解决 诸如 静态 或 动态 的 视野 盲区 、 前 景物 体 的 深度 信息 、 目 标 追 中 和 目 
标 像 素 等 问题 1] 。 视 觉 监控 、 机 器 视觉 和 汽车 工业 应 用 将 会 因此 受益 良 多 。 尽 管 
网 络 摄 像 机 在 校准 和 协作 问题 上 仍然 有 很 大 的 挑战 ， 但 分 布 式 智能 摄像 机 或 网 络 智 
能 摄像 机 的 前 景 很 可 能 就 是 能 够 进行 实时 的 、 无 所 不 在 的 信息 收集 和 分 析 (参考 
第 9、13、17 章 ) 。 






















































































O Reese ABE NI CVS-145x， 一 种 健壮 的 系统 ， 实 时 运行 Labview。 信 息 来 源 于 国家 仪器 公司 网 站 ， 
访问 日 期 2009 年 1 月 。 
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摘要 : 艇 入 式 系统 在 科学 和 工业 领域 应 用 得 越 来 越 广泛 。 当 今 微 电 子 和 超大 规 
模 集成 技术 的 进步 使 越 来 越 多 的 复杂 系统 可 以 集成 到 一 个 设备 上 。 智 能 摄像 机 便 是 
这 一 变革 产物 的 其 中 一 部 分 ， 它 可 以 看 做 是 用 于 图 像 获取 和 处 理 的 舱 入 式 系统 。 在 
摄像 机 内 对 图 像 和 视频 流 的 预 处 理 呈 现 出 了 一 些 优点 : 系统 有 了 更 多 的 自主 性 ; w 
轻 了 主机 的 处 理 量 ; 解决 了 通信 瓶颈 问题 。 本 章 的 主要 介绍 智能 摄像 机 技术 ， 包 括 
硬件 设备 、 系 统 设 计 及 其 应 用 。 






































3.1 简介 


藤 入 式 系 统 如 智能 摄像 机 ， 在 实际 应 用 中 可 能 会 在 架构 、 物 理 和 操作 上 有 特殊 
要 求 。 功 耗 、 体 积 限制 、 实 时 操作 和 系统 自主 性 可 能 都 是 很 大 的 限制 因素 ， 这 些 因 
素 使 智能 摄像 机 的 设计 比 台 式 系统 更 难 一 些 。 
幸运 的 是 ， 在 数据 获取 、 处 理 和 传输 方面 ， 现 在 的 微 电 子 和 大 规模 集成 电路 技 
术 提 供 了 很 多 种 装置 可 以 使 用 ， 这 些 装置 每 个 都 有 不 同 的 优点 和 缺点 。 所 选 的 硬件 
设备 决定 了 系统 的 性 能 、 灵 敏 度 和 可 编程 性 ， 它 们 通常 决定 了 一 个 嵌入 式 系统 是 否 
适合 某 个 或 某 类 特定 的 应 用 程序 。 

本 章 介绍 了 几 个 智能 摄像 机 的 应 用 方案 设计 ， 并 对 其 进行 了 讨论 。 主 要 目的 是 
了 解 设 计 这 些 系统 时 遇 到 的 硬件 和 结构 设计 问题 。 

本 章 的 安排 顺序 是 : 3.2 节 讨 论 在 进行 图 像 处 理 任务 时 对 硬件 和 软件 的 大 致 要 
求 ， 简 单 介 绍 主动 视觉 理论 框架 ， 并 解释 了 初级 视觉 的 概念 。 

3.4 节 主 要 探讨 硬件 问题 。 探 讨 了 时 下 智能 摄像 机 设计 所 采用 的 设备 的 主要 特 
征 ， 包 括 获取 、 处 理 和 通信 设备 。3.5 节 将 描述 在 智能 摄像 机 工业 和 研究 问题 上 的 
一 些 技术 选择 问题 。3.6 节 主 要 探讨 智能 摄像 机 的 应 用 问题 。 


3.2. 硬件 和 软件 的 基本 要 求 


图 像 处 理 是 一 种 计算 密集 型 任务 ， 要 求 处 理 大 量 数据 〈 一 幅 图 像 包括 几 百 万 
像素 或 字 节 ) ， 而 且 要 对 整个 图 像 数据 或 部 分 数据 进行 大 量 的 反复 计算 。 

低级 别 运算 过 程 通常 涉及 对 一 组 相 邻 像素 的 操作 ， 比 如 特征 匹配 中 滤波 或 相关 
运算 涉及 的 模板 卷 积 。 这 些 相 邻 像素 的 运算 要 求 大 量 的 内 存 ， 如 果 系 统 的 硬件 和 结 
构 不 是 专 为 这 类 处 理 设计 的 ， 那 么 可 能 很 快 就 会 遇 到 瓶 须 。 
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再 者 ， 中 级 〈 例 如 分 割 ) 和 高 级 (例如 识别 ) 过 程 可 能 会 用 到 复杂 的 迭代 或 
递归 的 数学 方法 (例如 矩阵 倒置 和 最 小 化 方法 )。 这 些 过 程 是 非常 有 挑战 性 的 ， 尤 
其 是 在 般 入 式 背 景 下 必须 保持 低 时 钟 频率 来 减少 功 耗 。 

图 3. 1 显示 了 数据 量 和 算法 复杂 性 之 间 的 相反 关系 。 低 级 的 图 像 处 理 是 对 大 量 
原始 数据 进行 了 少量 而 简单 的 重复 操作 。 这 些 进程 可 以 并 行 处 理 ， 适 合 FPCA ( 现 
场 可 编程 门 阵列 ) 或 者 SIMD ( 单 指令 多 数据 ) 处 理 器 的 处 理 结构 。 同 时 ， 更 高 级 
的 进程 通常 包括 复杂 的 操作 时 序 ， 它 带 有 大 量 的 指令 和 对 一 系列 压缩 了 的 特征 描述 
符 的 处 理 。 这 些 高 级 进程 需要 专门 的 信号 处 理 结构 和 高 级 编程 ， 使 这 些 进 程 更 适合 
使 用 像 DSP 和 媒体 处 理 器 这 些 以 CPU 为 基础 的 装置 。 














原始 低级 图 像 处 理 器 SIMD 
图 像 处 理 器 ，FPGA(> 10 GOPS) 
中 级 图 像 处 理 器 DSP， 
媒体 处 理 器 
高 级 描述 算法 复杂 度 高 级 应 用 处 理 器 CPU 





图 3.1 数据 量 与 算法 复杂 度 的 关系 (GOPS = Giga (10°) 次 /s) 


所 以 ， 在 分 析 和 定义 一 个 舱 入 式 图 像 处 理 系统 的 硬件 设备 之 前 ， 需 先 着 重 理解 
和 总 结 这 个 系统 要 执行 的 任务 的 主要 特性 。 

在 智能 摄像 机 的 背景 下 ， 要 执行 的 任务 通常 会 和 初级 视觉 进程 相关 联 。 初 级 视 
觉 的 定义 为 在 一 些 场景 中 通过 像素 运算 方法 获取 基本 的 、 相 关 的 信息 的 一 种 处 理 手 
段 ， 初 级 视觉 的 例子 有 运动 检测 、 物 体 奶 踪 和 特征 提取 。 它 们 将 在 本 书 第 5 章 进 行 


讨论 。 

















3.3 主动 视觉 和 初级 视觉 





计算 机 视觉 算法 因 其 高 度 复杂 性 而 为 人 所 知 。 计 算 机 视觉 领域 曾 尝 试 一 种 新 想 
法 ， 这 种 想法 是 图 像 解析 系统 必须 先 把 二 维 数据 转换 为 对 三 维 世 界 的 描述 ， 然 后 再 
推算 出 表面 、 体 积 、 边 界线 、 阴 影 、 闭 合 线 、 深 度 和 动态 (Mar 的 范式 ) 。 但 是 许 
多 构建 三 维 全 景 的 尝试 都 失败 了 ， 即 使 相关 技术 领域 的 研究 有 突破 性 进展 ， 这 个 想 
法 仍然 是 具有 挑战 性 的 。 

在 20 世纪 80 年 代 后 期 ， 受 到 生物 视觉 系统 的 启发 处 理 计算 机 视觉 问题 的 另 一 
种 方法 ， 是 主动 视觉 范式 !…”” ， 处 理 计算 机 视觉 问题 主要 是 考虑 视觉 任务 的 感 
知 方面 。 所 以 ， 系 统 不 再 要 求 获 得 所 观测 图 景 的 整个 三 维 体现 ， 而 是 仅仅 通过 任务 
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驱动 观察 策略 提取 有 用 的 信息 来 处 理 给 定 的 问题 。 这 种 方法 由 儿 位 研究 者 提出 、 开 
发 以 及 应 用 ， 他 们 每 个 人 都 关注 着 视觉 感知 的 不 同方 面 。 

我 们 在 组 成 主动 视觉 范式 的 几 种 方法 中 (主动 视觉 、 主 动感 知 等 ) 找到 了 一 
些 共同 点 。 其 中 的 两 个 共同 点 是 任务 驱动 感知 和 处 理 及 获取 的 反馈 。 这 意味 着 一 个 
反馈 环 路 驱动 着 数据 获取 进程 的 动态 适应 性 ， 而 这 点 又 取决 于 系统 的 状态 和 进行 的 
任务 。 人 工 系统 中 ， 这 种 追溯 性 能 以 不 同方 式 呈 现 : 机 械 方 面 (如 相机 运动 )、 光 
学 方面 (如 调 焦 ) 、 电 子 方面 (如 图 像 获取 控制 ) 或 算法 方面 (如 获取 策略 )。 

初级 视觉 处 理 的 是 信息 提取 和 背景 适应 这 样 的 选择 性 进程 ' ， 在 人 类 视觉 系 
统 中 ， 初 级 视觉 任务 是 由 眼睛 和 视觉 神经 无 意识 进行 的 ， 通过 获取 、 调 整 和 提取 基 
本 特征 ， 信 息 最 终 到 达 大 脑 的 意识 区 。 在 人 工 视 觉 系统 中 ， 初 级 视觉 任务 的 目的 是 
辨识 图 像 的 哪些 区 域 所 承载 的 信息 可 以 回答 给 定 问 题 ， 然 后 调整 获取 的 结果 ， 利 用 
处 理 策略 来 提取 这 些 区 域 中 的 信息 。 用 这 种 方式 ， 系 统 可 以 集中 力量 和 资源 来 处 理 
一 个 简化 的 数据 集 ， 而 不 用 分 析 一 个 几 兆 像素 的 特定 图 像 。 

但 是 与 传统 的 被 动 方 法 相 比 ， 即 使 是 主动 方法 ， 也 倾向 于 简化 了 的 视觉 任务 ， 
它 的 处 理 进程 相对 来 说 也 是 消耗 资源 的 。 初 级 视觉 通常 处 理 低级 的 图 像 处 理 任务 ， 
而 数据 并 行 开发 引 人 关 注 。 一 些 算法 是 要 同时 处 理 几 个 任务 的 ， 这些 算法 的 本 质 特 
征 要 求 任务 并 行 处 理 。 而 且 一 个 自动 系统 可 能 需要 处 理 一 些 高 级 的 任务 ， 例 如 认 知 
或 识别 ， 比 起 低级 图 像 处理 ， 这 些 系统 有 不 同 的 便 件 要 求 。 

当 构 建 一 个 智能 摄像 机 的 硬件 结构 时 ， 必 须 综合 考虑 这 些 因素 ， 以 便于 提供 一 
个 合适 的 平台 来 运行 所 需 的 应 用 程序 。 


3.4 组 件 和 技术 


大 致 来 说 ， 智 能 摄像 机 的 硬件 可 以 被 分 成 三 个 主要 模块 

CD 数据 获取 模块 : 理论 上 由 图 像 传 感 装置 组 成 。 但 其 他 类 型 的 数据 获取 装置 
也 可 以 被 整合 进去 以 便于 获取 场景 和 环境 相关 的 补充 信息 。 

Q 数据 处 理 模块 : 完成 特定 应 用 信息 处 理 (ASIP) 。 所 获取 的 结果 可 发 送 到 外 
接 主机 或 网 络 ， 触 发 事件 以 及 (或 者 ) 应 用 于 反馈 电路 来 控制 数据 获取 模块 。 

C 通信 连接 模块 ， 连 接 知 能 摄像 机 到 外 部 世界 (主机 和 网 络 )。 

本 广 的 剩余 部 分 将 对 适合 集成 这 些 模式 的 现今 科技 进行 全 景 概述 。 分 析 了 它们 
对 智能 摄像 机 设计 的 潜在 利用 价值 ， 描 述 了 它们 的 主要 优点 和 缺陷 。 


3.4.1 图 像 获取 和 传 感 装置 


提 到 摄像 机 和 视觉 系统 ， 很 显然 图 像 获 取 装 置 在 系统 运行 中 起 到 了 主导 作用 。 
即使 图 像 质量 (敏感 度 、 动 态 范 围 ) 和 清晰 度 〈 像 点 数量 ) 是 决定 图 像 传 感 的 非 
常 重要 的 特征 ， 但 是 其 他 特征 也 必须 加 以 认真 考虑 。 这 些 特 征 包 括 帧 率 和 像素 率 
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(每 秒 获得 的 图 像 或 像 点 的 数目 ) ， 地 址 模式 〈 降 采样 技术 、 随 机 寻 址 ) 、 集 成 容易 
度 以 及 控制 获取 结果 的 逻辑 (例如 一 些 足 够 使 操作 同步 的 信号 以 及 需要 很 多 参数 
和 触发 装置 ) 。 

当今 ， 图 像 传感器 中 CCD 和 CMOS 是 两 种 最 普通 的 技术 。CCD 传感器 是 基于 
移 位 寄存 器 读 出 的 技术 ， 即 积累 在 一 个 光敏 二 极 管 (像素 ) 中 的 电荷 被 转移 到 与 
它 相 邻 的 光敏 二 极 管 中 。 以 此 类 推 , 最 后 一 个 光敏 二 极 管 连接 在 输出 放大 电路 和 抽 
样 电路 上 。 一 个 控制 电路 允许 同步 电荷 转移 ， 直 到 整个 图 像 传 感 矩阵 被 读 出 。 由 于 
其 构成 原则 ， 当 图 像 传 感 区 域 过 度 曝 光 时 ， 在 CCD 中 会 出 现 一 个 众所周知 的 问题 。 
即 如 果 达 到 了 一 个 光敏 二 极 管 的 最 大 存储 量 ， 多 余 的 电荷 会 溢出 到 相 邻 的 光敏 二 极 
管 ， 形 成 “光学 "”。 可 通过 引入 耗 尽 型 结构 ， 实 现 抗 嗓 技术 。CCD 的 优点 是 噪声 
小 ， 图 像 均匀 度 高 和 贮存 因数 大 (光敏 感度 ) 。 

CMOS 图 像 处 理 器 采用 了 数字 存储 方式 的 读 出 ， 用 行 解码 器 和 列 放 大 如 可 以 随 
机 存 取 像素 值 ， 选 择 性 地 读 出 和 获取 感 兴趣 区 域 。 事 实 上 当 CCD 装置 的 获取 率 用 
图 像 /s 表示 时 ，CMOS 传感器 则 用 每 秒 所 获取 的 像素 表示 更 合适 。 那 样 ， 与 CCD 
图 像 处 理 器 相反 , CMOS 技术 使 得 应 用 程序 仅 用 小 部 分 的 图 像 传 感 矩阵 来 获取 非常 
高 的 帧 率 变 为 可 能 。 其 他 CMOS 的 优点 是 动态 范围 大 、 集 成 简单 以 及 光泽 低 。 

尽管 有 这 些 优点 , 但 和 CCD 装置 比较 起 来 ，CMOS 图 像 传感器 的 图 像 性 能 仍 
然 是 相对 较 弱 的 。 特 别 是 有 更 高 的 固定 模式 噪声 (FPN ) 。 导 致 这 种 噪声 的 原因 是 
内 置 像素 电路 的 电子 特征 不 匀称 以 及 像 列 放大 器 一 样 成 列 地 读 出 元 件 ， 这 也 导致 了 
最 终 的 图 像 有 一 个 稳定 的 偏 移 模式 。 这 种 偏 移 可 以 从 每 个 图 像 中 被 移 除 掉 ， 来 达到 
更 好 的 效果 ， 但 是 这 种 抑制 给 处 理 系统 带 来 了 额外 的 负担 。 总 而 言 之 ， 这 两 种 技术 
都 既 有 优点 又 有 缺点 ， 不 分 伯仲 。 

其 他 图 像 技术 是 红外 线 图 像 和 热 感 图 像 ， 例 如 应 用 于 夜 视 和 无 损 测试 。 图 像 感 
应 装置 和 数据 获取 模块 在 本 书 的 第 2 部 分 将 进一步 讨论 。 

3.4.1.1 其 他 潜在 的 传 感 装 置 

惯性 传感器 、 指 南 针 、 传 声 器 和 GPS (全 球 定位 系统 ) 模块 可 以 被 集成 到 图 
像 处 理 单元 来 提供 相机 位 置 的 额外 信息 ， 这 种 技术 可 以 用 在 图 像 稳 定 化 、 重 置 、 导 
航 和 机 器 人 控制 系统 中 。 

惯性 传感器 早 在 几 十 年 前 就 存在 了 ， 但 是 这 种 技术 长 期 以 来 几乎 只 用 于 开发 规 
模 大 和 费用 高 的 项 目 ， 如 军事 项 目 。 仅 仅 在 近 几 年 ， 随 着 硅 片 和 微型 结构 技术 的 发 
展 ， 加 速度 计 和 陀螺 仪 才 出 现在 消费 市 场 中 。 这 些 惯 性 传感器 没有 外 部 参数 ， 而 且 
体积 减 小 、 价 格 又 降低 ， 可 以 应 用 在 计算 机 本 体感 受 器 的 逻辑 动作 感应 中 "…] 。 本 
体感 受 是 测量 位 移 、 定 位 、 定 向 和 摄像 机 自身 系统 运动 的 能 力 。 在 摄像 机 移动 的 情 
况 下 ， 本 体感 受信 息 可 以 对 用 于 目标 追踪 和 稳定 图 像 的 摄像 机 进行 运动 补偿 。 而 且 
可 以 对 摄像 机 进行 定位 和 定向 的 功能 ， 人 允许 对 由 一 个 单 运动 摄像 机 捕获 的 成 对 的 图 
像 进行 立体 的 匹配 5 。 
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许多 由 OEM ( 原 广 委托 制造 ) Fe BERS RA RRA VA BK A EI — AE BE 
摄像 机 中 。 例 如 GPS 模块 可 以 用 来 估计 一 个 户外 摄像 机 在 监控 网 络 中 的 精确 位 置 。 
最 终 太阳 的 位 置 也 可 以 被 计算 到 ， 光 线 的 问题 也 能 轻易 地 解决 了 。 

传声器 也 可 以 被 集成 。 语 音 对 于 如 入 侵 检测 之 类 的 任务 是 有 用 的 信息 资源 ， 而 
且 一 个 立体 声 系 统 可 以 提供 定位 线索 来 追踪 目标 “1 。 传 声 器 可 以 被 集成 到 摄像 机 
里 或 者 作为 分 布 式 摄像 机 网 络 的 智能 节点 "| 。 


3.4.2 RALEA 


智能 摄像 机 可 以 用 不 同类 型 的 数据 处 理 装 置 来 组 装 。 最 常用 的 装配 方式 是 通用 
的 般 入 式 RISC (精简 指令 集 计算 机 ) 的 微 处 理 器 和 微 控制 器 、DSP、FPGA 以 及 媒 
体 处 理 器 。 也 可 用 其 他 装置 ， 如 ASIC (特定 应 用 程序 集合 电路 ) SIMD 处 理 器 或 
者 也 可 用 FPGA 装置 上 的 软 核 处 理 器 。 

有 时 处 理 模 块 可 以 由 几 种 装置 以 不 同 的 结构 (如 FPGA + DSP, 以 及 将 在 3.5 
节 中 介绍 的 CMOS 结构 ) 或 多 处 理 器 结构 组 成 ， 以 开发 一 种 几 个 相同 处 理 单 元 组 
成 的 能 入 式 网 络 。 处 理 装 置 和 结构 的 选择 要 满足 应 用 需求 ， 还 需 考 虑 物理 的 、 设 计 
的 和 计算 的 约束 条 件 : 

(D 物理 约束 是 指 装置 的 大 小 、 功 耗 和 IO 接口 或 引 脚 的 数量 。 

D 设计 约束 是 指 装置 的 成 本 、NRE 成 本 (〈 非 经 常 性 工程 成 本 ) 、 集 成 难度 
(设备 集成 ) 以 及 所 要 求 的 外 围 电 路 (电阻 、 电 容 、 电 源 、 振 荡 器 等 ) 。 

@) 计算 约束 与 处 理 能 力 有 关 (例如 每 秒 执行 的 指令 数量 或 操作 ) 、 可 编程 性 
(例如 高 级 语言 、 汇 编 、 硬 件 描述 语言 ) 以 及 应 用 程序 灵活 性 。 

要 经 常 根据 预期 的 产量 和 系统 的 可 扩展 性 "*,* ， 在 这 些 不 同 特征 和 约束 中 找 
到 折 中 点 。 图 3.2 粗略 对 比 了 设计 一 个 般 入 式 系统 时 ASIC, DSP, FPGA 和 媒体 处 
理 器 对 各 种 约束 限制 的 符合 程度 。 

在 执行 力 和 功 耗 方面 ，ASIC 是 理想 的 选择 。 当 然 ， 为 了 一 个 特定 的 应 用 开发 
一 个 专用 的 SoC (片上 系统 ) 就 需要 对 硅 片 进行 深度 开发 ， 优 化 功 耗 ， 从 而 使 定制 
的 结构 适应 ASIP 数据 流 。 然 而 这 种 开发 成 本 太 高 使 这 种 方案 只 适用 于 消费 产品 
(例如 有 几 千 单位 的 产量 ) ， 由 于 这 种 局 限 性 ，ASIC 装置 的 灵活 性 和 可 编程 性 很 低 
或 几乎 为 零 。 

对 于 小 的 或 中 等 产量 的 高 性 能 应 用 来 说 ，FPGA 是 一 个 极 好 的 选择 。 事 实 上 ， 
近 几 十 年 来 ，FPCA 技术 经 历 了 巨大 的 变革 ， 而 且 在 太空 、 军 事 、 工 业 和 研究 领域 
越 来 越 受 欢迎 。 由 于 每 个 装置 逻辑 器 件数 目的 增加 ， 时 钟 频率 的 增加 和 大 规模 并 行 
处 理 的 可 能 性 ， 如 今 FPGA 获得 了 与 ASIC 类 似 的 处 理性 能 ， 且 可 以 完全 重新 配置 。 
KE, FPGA 极其 灵活 且 几 乎 可 以 满足 每 一 个 应 用 程序 的 要 求 。 另 外 DSP 或 通用 
CPU 核 〈 软 核 处 理 器 ) 可 能 会 真正 运行 在 这 样 的 装置 上 也 是 一 个 引 人 注 目的 特色 。 
但 是 ，FPGA 的 功 耗 相对 较 高 ， 甚 至 如 果 有 设计 方法 和 开发 环境 的 话 ， 比 起 基于 
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灵活 性 
低 NRE @ 处 理性 能 


可 编程 能 力 低 功 耗 可 编程 能 力 


ASIC 





可 编程 能 力 低 功 耗 
媒体 处 理 器 











AK|3.2 各 类 处 理 咒 及 其 物理 、 设 计 、 计 算 特 性 的 比较 


CPU 的 解决 方案 ， 基 于 FPGA 的 技术 需要 更 多 的 开发 时 间 和 专业 知识 。 主 要 的 
FPGA 生 产 商 是 ALTEA Ail XILINX, 

DSP 装置 与 媒体 处 理 器 有 很 多 共同 点 ， 都 拥有 瞬 入 式 通用 RISC 处 理 器 ( Pow- 
erPC, ARM 等 ) 和 微 控制 器 。 所 有 这 些 装 置 都 是 基于 CPU 的 ， 即 基于 一 个 处 理 
核 。 所 以 它们 都 有 很 好 的 编程 性 能 ， 可 以 在 专门 的 开发 环境 中 使 用 高 级 语言 (如 
C、C ++ 语 言 )。NRE 成 本 非常 低 且 灵活 性 高 ， 这 使 它们 有 了 更 多 的 应 用 。 

基于 CPU 的 各 装置 之 间 的 主要 区 别 在 于 性 能 水 平 上 。 微 控制 器 通过 增加 CPU 
核 内 存 (RAM, ROM, WF), 、 外 围 设备 和 L/O 接口 (ADCS, DACS 等 ) ， 可 以 被 
看 作 升 级 了 的 RISC 处 理 器 。 另 外 ，DSP 核 为 了 优化 数学 运算 的 执行 (如 MAC R 
法 累加 ) 和 SIMD 单元 ， 使 用 了 一 种 专门 的 结构 和 一 些 特 殊 的 硬件 结构 。 最 后 ， 媒 
体 处 理 器 只 处 理 音频 和 视频 ， 是 一 类 适合 于 处 理 数据 流 的 DSP 装置 。DSP 和 媒体 
处 理 器 可 以 有 VLIW (非常 长 的 指令 词 ) 结构 ,例如 NXP 公司 开发 的 Trimedia 处 
理 器 。 


3.4.3 通信 接口 和 协议 


为 摄像 机 构建 或 购置 一 个 接口 时 要 考虑 诸多 因素 。 即 使 智能 摄像 机 被 认为 应 该 
在 内 部 处 理 获 取 的 数据 并 且 仅仅 传输 和 观测 与 场景 相关 的 信息 ， 但 必要 时 可 以 传输 
高 清晰 图 像 仍 然 是 一 些 应 用 程序 的 关键 点 。 在 这 些 情况 下 ， 通 信和 接口 带宽 必须 要 高 
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到 足以 承载 一 个 视频 传输 流 ， 即 使 那个 摄像 机 不 用 总 是 以 传输 视频 的 速率 来 传输 
数据 。 

事实 上 ， 特 定 的 清晰 度 和 数据 的 传输 速率 与 带宽 有 关 ， 而 所 要 求 的 带宽 与 图 像 
传 感 硕 又 是 紧密 相关 的 ， 所 以 明智 的 选择 是 开发 保持 最 好 的 图 像 传感器 性 能 。 这 样 
的 话 ， 此 传感器 将 要 求 通信 接口 在 输出 速率 上 与 之 一 致 。 

但 是 ， 在 处 理 通 信 协 议 时 ， 传 输 带 宽 不 是 唯一 重要 的 特征 ， 通 常 ， 摄 像 机 接口 
可 以 按 四 个 主要 因素 来 进行 分 类 : 

OD 带宽 (数据 接收 的 或 传输 的 速率 ) ; 

© 紧凑 性 和 电缆 〈 有 线 或 无 线 、 最 大 电缆 长 度 及 无 线 范 围 ) ; 

© 确定 性 和 响应 〈 通 信 延 迟 和 和 鲁 棒 性 ) ; 

D 供应 商 互 换 性 〈 兼 容 性 问题 和 软件 驱动 ) 。 

表 3.1 和 3.2 分 别 列举 了 有 线 和 无 线 通信 的 主要 协议 。 

表 3.1 常用 有 线 通信 协议 















































协议 理论 带宽 

RS-232 串口 19, 200 bit/s 

USB 1. x 全 速 12 Mbit/s 

USB 2.0 高 速 480 Mbit/s 

FireWire 或 IEEE 1394a/b 400/800 Mbit/s 

Camera Link 2. 04 Gbit/s, 4. 08 Gbit/s 或 5. 44 Gbit/s 
以 太 网 ， 快 速 以 太 网 10/100 Mbit/s 

千 兆 以 太 网 1 Gbit/s 


43.2 常用 无 线 通信 协议 




















协 XN 理论 带宽 无 线 覆 盖 范 围 /m 
WiFi IEEE 802. 11a 54 Mbit/s 可 达 10 
WiFi IEEE 802. 11b 11 Mbit/s 室内 约 50， 室 外 约 200 
WiFi IEEE 802. 11g 54 Mbit/s 室内 约 27， 室 外 约 75 
蓝牙 1 Mbit/s 约 10 ~100 
ZigBee (IEEE 802. 15. 4) 250 kbit/s 室内 约 10 ~30， 室 外 可 达 150 








举 个 例子 ， 如 果 一 个 摄像 机 装配 了 来 自 Aptina Imaging 公司 (前 身 是 Micron 
Imaging) 的 MT9M413 图 像 传感器 ， 每 秒 传输 高 达 660 百 万 像素 ， 那 就 有 必要 配置 
一 个 Camera Link 接口 使 这 个 传感器 性 能 达到 最 优 (在 整个 配置 中 S. AAGbiv/s 即 
680MB/S) 。 但 是 在 一 些 情况 下 ， 有 其 他 约束 条 件 存在 时 ， 保 持 传 感 器 和 通信 接口 
数据 速率 一 致 的 规则 是 可 以 被 打破 的 〈 这 要 看 哪个 规则 更 符合 整体 性 能 ) 。 例 如 对 
于 一 个 电池 供电 的 自动 智能 摄像 机 ， 即 使 250kbit/s 的 带宽 不 可 能 进行 实时 视频 传 
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输 ， 但 因为 功 耗 很 低 ， 更 倾向 于 使 用 无 线 ZigBee 协议 。 无 线 智 能 相机 的 设计 和 摄 
像 机 网 络 将 在 本 书 第 5 章 讨论 。 

减少 带宽 要 求 的 一 个 方法 是 压缩 算法 "|。 但 是 压缩 和 解压 图 像 给 摄像 机 和 主 
机 带 来 额外 的 处 理 负担 ， 而 且 必 要 的 压缩 比率 会 导致 质量 下 降 。 

最 后 ， 综 上 所 述 ， 带 宽 不 是 唯一 的 决定 性 因素 。 例 如 ，GigE 视觉 系统 的 实施 
成 本 在 理论 上 看 起 来 可 行 ， 但 最 终结 果 会 阻碍 应 用 的 响应 和 开发 时 间 。GigE 视觉 
系统 还 处 于 初期 阶段 ， 而 Camera Link 和 IEEE 1394 是 经 过 实际 验证 的 ， 必 须 考虑 
标准 的 完整 性 。USB2.0 的 视频 传输 协议 根本 不 存在 。GigE Vision 和 IEEE 1394 摄 
像 机 在 供应 商 间 是 兼容 的 ， 而 且 比 Camera Link 更 容易 配置 。 














3.5 智能 摄像 机 的 发 展 状况 


本 节 的 目的 是 介绍 并 描述 一 些 工业 用 及 研究 用 的 智能 摄像 机 。3. 5. 1 给 出 了 智 
能 摄像 机 的 例子 ， 接 下 来 介绍 了 主要 研究 组 织 、 公 司 和 精 选 的 智能 摄像 机 项 目 。 


3.5.1 智能 摄像 机 举例 


图 3. 3 给 出 了 四 个 研究 用 的 智能 摄像 机 系统 。NXP (前 身 Philips) 公司 研发 的 
WiCa 摄影 机 mote 能 人 了 一 个 或 两 个 VGA (300k 像素 ) 彩色 图 像 传感器 ， 连 接 了 
Xetal 系列 的 IC3D SIMD 处 理 器 (参考 第 12 章 ) 。 通 信 接 口 由 低 功 耗 的 ZigBee 模块 
组 成 。 使 用 ATMEL 8051 控制 器 来 控制 系统 的 操作 和 通信 。IC3D 装置 拥有 一 个 由 
320 个 处 理 元 素 构成 的 LPA (线性 处 理 器 序列 ) A 64 个 由 3200bit 构成 的 线性 存 
储 器 。 这 个 结构 对 每 个 像素 执行 相同 的 操作 ， 这 对 于 低级 别 的 图 像 处理 是 非常 有 力 
的 。 例 如 ， 处 理 QVGA 图 像 (320 x240) 时 ， 一 整 行 像 素 可 以 存储 到 每 个 线性 存 
储 器 中 被 同时 处 理 ， 每 个 像素 分 配给 LPA 的 每 个 PE (处 理 元 件 ) 。 

Stanford 的 MeshEye 无 线 结构 提供 了 一 个 有 趣 的 多 传感器 混合 分 辩 率 方法 : 这 
些 传感器 是 基于 CMOS VGA 彩色 图 像 传 感 器 以 及 在 类 似 光 电 鼠 标 上 找到 的 两 个 或 
者 更 多 像素 的 传感器 。 这 个 系统 由 一 个 ATMEL 微 控制 器 结合 一 个 ARMRRDMI 处 
理 核 和 一 个 ZigBee 接口 来 完成 。 混 合 分 辨 率 传 感 系统 用 典型 的 早期 主动 视觉 方法 
来 优化 数据 获取 的 进程 。 例 如 ， 一 个 低 分 辨 率 的 传感器 可 以 被 用 于 场景 中 的 动态 探 
测 。 如 果 一 个 移动 的 物体 被 探测 到 ， 男 外 一 个 低 分 辨 率 的 传感器 可 以 用 于 立体 匹 
配 ， 而 且 一 旦 一 个 推断 出 移动 物体 的 位 置 和 大 小 ， 包 含 这 个 物体 的 WO0I 就 可 以 最 
AH VGA 传感器 获取 。 这 种 高 分 辨 率 的 WOL 可 以 被 存储 起 来 后 做 进一步 处 理 ( 识 
别 或 分 类 ) ， 然 后 传送 到 主机 电脑 ， 或 者 在 网 络 环境 下 与 邻近 的 摄像 机 交换 数据 。 

Bourgognea 大 学 的 Le2i Laboratory 的 高 速 智能 摄像 机 ， 配 置 1. 3M 像素 的 高 速 
CMOS 图 像 传感器 (MTPM413 来 自 于 Aptina， 前 身 Micron) 、 一 个 XILINX 系列 的 
Virtex IIFPGA 装置 和 一 个 USB2. 0 端口 。 它 的 图 像 传 感 器 在 全 分 辨 模式 下 每 秒 可 以 
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FPGA 板 
CMOS 传 感 器 板 接口 板 


网 眼 架构 原型 ， 来 自 美国 斯 坦 福 大 学 的 WSNLI2"1 | SeeMOS 异 构 处 理 单元 ， 来 自 法 国 LASMEAH451 








3.3 ”关于 智能 摄像 机 研究 项 目的 案例 





获得 500 帧 图 像 ， 意 味 着 数据 传输 率 达 到 6.55Gbit/s。 为 了 通过 USB 2.0 接口 
(480Mbit/s) 来 传输 视频 流 ， 在 FPGA 装置 中 应 用 了 压缩 算法 〈 压 缩 比 是 30: 1) 
及 一 些 图 像 传输 任务 ， 如 Sobel 过 滤器 ， 腐 蚀 、 膨 胀 和 标志 提取 的 质心 计算 。 

由 LASMEA 提供 的 SeeMOS 结构 包含 Cypress Semiconductor LUPA 4000 单 色 
4 MPIXEL CMOS 图 像 传感器 ， 一 个 Firewire 接口 ， 一 个 由 ALTERA Straitix 的 FPGA 
装置 组 成 的 异 构 处 理 模块 和 TI 公司 的 TMS320c6455 DSP 装置 。 另 外 ， 一 个 三 维 内 
在 感应 元 件 被 集成 在 图 像 传 感 板 上 ， 包 括 三 个 加 速 器 和 三 个 回转 器 。FPGA 装置 通 
过 一 个 定制 的 编程 控制 核 来 负责 控制 和 同步 整个 系统 。 这 样 ， 仅 仅 用 一 个 HDL 例 
程 就 可 以 使 得 不 同 的 应 用 程序 以 最 小 〈 或 零 ) 代价 实现 。 充 分 利用 4M 像素 传 感 央 
的 随机 地 址 技术 ， 以 获得 高 帧 率 (如 对 140 x 140 帧 数 每 秒 1000 Wi), FPGA 中 
的 SIMD 单元 或 DSP 软件 程序 都 可 以 进行 数据 处 理 。 后 者 通过 EMIF 协议 (扩展 存 
储 接口 ) 和 五 个 独立 的 2M 内 存 条 来 与 FPGA 通信 。 由 于 高 清晰 度 图 像 获取 的 控 
制 、 内 在 传 感 技 术 以 及 可 开发 的 高 级 并 行 化 技术 使 SeeMOS 智能 摄像 机 成 为 主动 和 
初级 视觉 算法 的 一 个 合适 平台 。 
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其 他 与 智能 摄像 机 的 研究 相关 有 趣 的 例子 是 Carnegie Mellon 大 学 提出 的 
CMUcam 项 目 和 Graz 大 学 提出 的 SmartCam 项 目 。CMUcam 项 目 生产 的 三 代 智 能 摄 
像 机 ， 均 可 出 售 。“CMUcam 3 开放 资源 可 编程 谱 入 彩色 视觉 平台 ”以 有 CIF 分 辨 
率 彩色 图 像 传感器 (352x288) 和 一 个 基于 ARMTTDMI 核 的 处 理 器 为 特色 。 可 以 
进行 模拟 视频 输出 ， 而 且 能 够 集成 ZigBee 无 线 通信 模块 。CMUcam 3 平台 也 包括 一 
个 开放 源码 环境 ， 一 个 基本 图 像 操作 库 以 及 其 他 软件 设施 如 语言 转换 器 、 抓 帧 器 和 
其 他 图 片 打印 工具 。 

SmartCam Jit H 7.99 Fil Hj—4* CMOS VGA 图 像 传 感 器 和 两 个 TI 公司 的 TMS 
320c 6415DSP 芯片 ， 通 过 机 载 PCI 总 线 互 相连 接 开 发 了 一 个 平台 。 由 于 般 入 了 网 
络 处 理 器 (Iternet IXP425 ) ， 可 以 开发 几 个 通信 系统 (如 Ethernet, USBRS232, 
WLAN 和 GSM) 。 交 通 监控 系统 可 在 这 样 的 平台 上 实现 ， 而 且 又 提出 了 高 达 十 个 
DSP 装置 的 可 扩展 版 本 。 在 分 布 式 监控 系统 中 也 应 用 了 这 样 的 平台 ! 1 。 

目前 ， 工 业 智 能 摄像 机 可 以 列举 来 自 全 世界 几 个 生产 商 的 成 百 上 千 个 产品 ， 以 
及 大 量 各 种 可 能 的 应 用 。 德 国 的 VC vision component 提出 了 几 个 装置 系列 。 
Optimum 系 列 (VC44 x x) 包括 6 个 高 性 能 智能 摄像 机 模式 ， 装 置 了 分 辨 率 高 达 
2M 像素 /s 的 CCD 图 像 传感器 和 一 个 1GHz DSP、RS232 以 及 Fast Ethernet 通信 ; 
再 加 上 数据 vo 接口 作为 外 接 装 置 控制 。 

澳大利亚 GMBH 研究 中 心 的 智能 系统 部 门 提出 了 交通 监控 智能 传感器 :5 和 人 
流量 统计 智能 传感器 ， 这 两 种 传感器 都 是 基于 一 种 新 的 、 自 主 的 图 像 技 术 ， 可 以 对 
于 光 强 度 的 相应 变化 作出 自主 的 、 自 发 信号 的 像素 响应 ， 尤 其 适合 检测 移动 物体 ， 
且 对 于 图 像 光 线 和 形状 的 变化 具有 较 强 的 鲁 棒 性 。 

National Instruments 提出 了 五 种 智能 摄像 机 模式 (NI 17 x x ) ， 均 采用 CCD 单 
色 图 像 传 感 器 〈 分 辩 率 为 : 640 x 480 或 1280 x 1024), HX. PowerPC 处 理 核 和 
Gigabit Ethernet 接口 。1762 和 1764 模式 也 以 采用 了 TI 公司 的 720MHz 的 DSP HE 
要 特色 。 把 光 控 制 器 集成 进去 可 以 控制 摄像 机 下 方 物体 的 亮度 。 这 个 特点 对 于 工业 
应 用 (如 质量 的 监控 ) 是 非常 有 用 的 。 也 可 提供 一 个 开发 环境 (NI 视觉 自动 检测 
生成 器 ) ， 正 如 用 CabVIEW 对 摄像 机 编程 的 开发 包 。 

SICK IVP 提出 了 工业 环境 下 的 两 种 智能 摄像 机 模式 : IVC-2D 和 1IVC-3D。 这 
两 种 模式 都 装配 了 一 个 800MHz 的 处 理 器 ， 一 个 FPGA 处 理 加 速 器 和 Fast Ethernet 
接口 。IVC-2D 装置 了 一 个 CCD 图 像 传 感 器 。IVC-3D 装置 的 CMOS 芯片 优化 了 三 
维 图 像 并 能 用 摄像 机 内 的 激光 器 和 三 角 划 分 方法 来 测量 高 度 。 激 光 器 在 物体 上 划一 
条 线 ， 而 相机 从 一 个 角度 观测 这 条 线 ， 便 看 到 了 与 物体 高 度 轮 廓 高 度 吻 合 的 一 条 曲 
线 。 当 物体 在 激光 束 下 通过 时 ， 由 这 个 物体 的 多 个 高 度 轮 廓 构成 了 一 个 三 维 图 像 。 
方便 用 户 使 用 的 IVC Studio 编程 工具 被 用 于 摄像 机 的 编程 和 配置 中 。 

其 他 例子 如 第 2 章 提 到 的 索尼 XC, Intellior ILC 智能 摄像 机 和 NeuriCam VISoc 
CMOS 智能 视觉 片上 系统 !1 。 
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3.5.2 主要 的 研究 机 构 、 公 司 及 部 分 项 目 
本 节 将 会 列举 一 些 制造 商 以 及 涉及 智能 摄像 机 的 研究 项 目 。 表 3.3 提供 了 一 个 
简要 的 概述 。 当 然 ， 此 表 远 不 能 涵盖 所 有 ， 只 包含 一 些 在 这 里 已 经 提 到 的 项 目 与 设 
备 。 欲 了 解 更 多 信息 ， 请 访问 网 页 http; //www. smartcamera. it/links. htm， 其 中 包 
含 儿 个 最 知名 的 智能 摄像 机 制造 商 的 网 站 和 一 些 研究 项 目的 链接 。 
表 3.3 关于 智能 摄像 机 的 部 分 领军 企业 和 研究 组 织 













































































组 织 、 公 司 项 目 、 产 品 (相关 ) B ”家 
SCS- 卡 内 基 梅 隆 大 学 CMUcam Vision Sensors ^?) 美国 
WSNL- 斯坦 福 大 学 MeshEye 架构 [2331 美国 
LASMEA- 布 莱 斯 .帕斯卡 大 学 /CNRS SeeMOS Ji H L14410] 法 国 
Vision Components VC 系列 德国 
Smart Systems- 澳大利亚 研究 中 心 智能 眼 传感器 5501 澳大利亚 
Le2i- 勃 恨 第 大 学 /CNRS 高 速 智能 传感器 :3891 法 国 
Intellio ILC 系列 匈牙利 
索尼 XCI 系列 日 本 
National Instruments NI17xx 系列 和 CVS 美国 
SICK IVP IVC 2D fil IVC 3D Hii 
飞利浦 /NXP Research WiCa 无 线 微粒 [2961 荷兰 
NeuriCam VISoc 视觉 片上 系统 0] 意大利 
MI- 格拉 茨 技术 大 学 智能 摄像 机 项 目 57 61 澳大利亚 








3.6 应 用 


智能 摄像 机 具有 广泛 的 应 用 领域 ， 涉 及 日 常 活动 的 许多 领域 。 正 如 在 前 面 的 章 
节 中 解释 的 ， 一 个 智能 摄像 机 的 关键 在 于 感知 和 图 像 处 理 技术 的 完美 集成 以 及 互 连 
协议 。 这 些 特征 意味 着 智能 摄像 机 发 挥 了 一 个 高 层次 传感器 的 重要 作用 ， 因 此 提出 
特殊 要 求 : 

(D 图 像 包 含 了 非常 复杂 和 丰富 的 大 量 信息 ; 

(2) 相关 的 图 像 处 理应 允许 提取 几 个 层次 不 同 的 信息 ; 

© 根据 前 后 关联 ， 该 信息 的 特性 可 以 被 改变 。 

在 本 章 的 剩余 部 分 ， 会 介绍 智能 摄像 机 的 几 个 不 同 应 用 以 显示 系统 的 重要 性 ， 
更 重要 的 是 ， 强 调 它们 的 广泛 用 途 。 然 后 联系 实例 回顾 其 不 同 的 应 用 领域 ， 将 给 出 
一 个 简略 的 不 同 应 用 领域 的 回顾 并 联系 一 些 具体 例子 。 更 多 智能 摄像 机 的 应 用 将 在 
本 书 第 4 章 全 面 详细 地 进行 前 述 。 





























38 智能 摄像 机 





3.6.1 安全 性 


监控 系统 在 公共 安全 方面 (如 机 场 、 交 通 运输 和 银行 ) 显得 越 来 越 重要 。 传 
统 监控 系统 的 基本 问题 是 它们 通常 由 人 来 操控 ， 这 会 引发 两 点 问题 : 

CD 利用 人 力 资 源 来 观测 视频 是 非常 昂贵 的 ， 相 比 之 下 摄像 机 安装 得 再 多 也 会 
便宜 些 。 而 且 ， 人 工 进 行 视频 监控 时 采 板 、 无 聊 ， 会 使 人 渐渐 疲倦 、 注 意 力 分 散 。 

Q 观测 、 记 录 并 使 用 敏感 信息 通常 会 引 来 道德 问题 。 如 果 完 全 自动 地 对 数据 
进行 操作 ， 避 人 免 私 人 的 介入 ， 这 个 问题 就 能 被 避免 。 这 包括 对 个 人 资料 ( 如 生物 
统计 数据 ) 或 对 受 保护 和 隐私 区 域 的 观测 。 

在 这 样 的 情况 下 ， 使 用 智能 摄像 机 不 仅 能 解决 以 上 问题 ， 同 时 还 保证 了 资料 处 
理 的 有 效 性 和 安全 性 。 

而 且 ， 智 能 摄像 机 的 灵活 性 使 其 可 以 在 多 种 模式 下 使 用 : 

(D 自动 模式 (如 在 生物 统计 的 访问 控制 情况 下 )。 如 上 所 述 ， 它 们 允许 以 机 密 
的 方式 处 理 敏感 信息 ， 并 以 简单 方法 验证 访问 。 

D 网 络 模式 。 这 样 能 够 实现 有 分 布 式 计算 能 力 的 协作 系统 。 


3.6.2 自动 化 


在 很 多 大 都 市 、 街 道 、 十 字 路 口 和 高 速 公 路 ， 都 有 视频 监控 系统 。 大 致 来 说 ， 
这 些 系统 能 检测 评 佑 三 类 问题 : 

(D 车 流量 的 评估 。 以 此 来 优化 和 调控 交通 。 

© 探测 危险 情况 ， 例 如 事故 或 行驶 方向 错误 的 车 辆 。 

© 控制 车 辆 进入 保护 区 或 预定 区 域 (例如 伦敦 的 停车 场 、 城 市 中 心 ) 。 

但 是 ， 自 动 化 应 用 也 可 以 在 车 辆 内 部 找到 。 实 际 上 ， 量 产 的 车 辆 由 50 ~ 100 个 
租 和 人 式 处 理 器 和 大 量 本 地 传感器 组 成 。 在 需要 视觉 技术 的 特定 任务 中 ， 智 能 摄像 机 
显现 出 了 较 好 的 前 景 。 这 类 任务 涉及 几 个 与 安全 相关 的 应 用 ， 如 下 : 

CD 司机 意识 度 和 困倦 程度 的 监督 和 测量 。 

© 路 上 障碍 物 的 探测 。 

© 适应 性 巡航 控制 技术 (ACC) 。 


3.6.3 人 机 交互 


随 着 人 机 交互 领域 开始 利用 智能 摄像 机 ， 将 会 涌现 出 人 工 系统 和 人 一 环境 接口 
的 新 问题 。 一 些 新 方法 可 成 为 软件 插件 ， 用 于 数字 摄像 机 、 移 动 电话 和 个 人 数字 助 
理 。 例 如 ， 多 模式 人 工交 互 方法 可 以 被 应 用 在 智能 摄像 机 系统 中 。 随 着 传声器 和 扬 
声带 在 摄像 机 电话 中 的 使 用 ,通过 视觉 和 听觉 暗示 来 识别 语音 和 情绪 的 拉 术 也 可 以 
用 相同 的 骨 入 处 理 絮 来 处 理 。 所 以 智能 摄像 机 中 也 出 现 了 交互 对 话 系统 。 新 观念 将 
人 带 来 新 的 手持 和 佩戴 式 的 视觉 系统 工具 。 在 这 些 可 能 性 中 ， 基 于 姿势 的 识别 算法 可 
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以 被 应 用 在 室内 和 车 辆 的 个 人 智能 摄像 机 中 以 便 进 行 交 互 远程 控制 。 摄 像 机 电话 可 
以 安装 在 自行 车 的 头盔 后 面 充当 “后 视 镜 ”监控 系统 。 而 且 小 型 智能 摄像 机 给 互 
动 性 玩具 和 游戏 带 来 了 新 的 概念 。 

在 这 方面 ， 相 关 算 法 需要 具备 足够 的 鲁 棱 性 来 处 理 好 各 种 各 样 的 图 像 。 最 有 用 
的 是 在 各 种 照明 条 件 下 、 各 种 背景 下 、 室 内 或 户外 ， 算 法 都 能 可 靠 运 行 。 可 能 对 于 
人 工交 互 的 手持 视觉 系统 或 者 新 型 的 手持 视觉 系统 ， 面 临 的 最 大 挑 成 是 摄像 机 一 直 
在 移动 。 在 传统 的 人 机 交互 环境 中 ,电脑 和 与 其 相连 接 的 摄像 机 的 位 置 是 固定 的 ， 
用 户 坐 在 椅子 上 ， 这 样 就 给 出 了 空间 几何 位 置 的 限制 条 件 ， 从 而 降低 了 图 像 和 视频 
分 析 的 复杂 性 。 开 展 更 多 的 视觉 技术 研究 ， 其 目的 在 于 能 开发 出 更 可 靠 的 算法 和 应 
用 ， 在 摄像 机 移动 的 情况 下 ， 方 便 地 实现 人 与 人 的 交互 。 


3.6.4 移动 装置 


带 有 数码 相机 、 数 码 摄像 机 和 可 视 电 话 的 移动 电话 正 快速 发 展 。 早 期 的 摄像 机 
电话 引入 了 VGA 大 小 的 图 片 快 照 能 力 。 在 当前 的 和 下 一 代 电 话 中 ， 图 像 大 小 已 经 
达到 8M 像素 。 早 期 各 种 电话 的 摄像 和 视频 传输 能 力 都 限制 在 SQCIF, QCIF 或 者 
QVGA 大 小 的 视频 内 ， 但 现在 达到 了 VGA 水 平 ， 而 且 类 似 数码 摄像 机 的 视频 质量 
预期 能 达到 电视 机 的 视频 质量 。 在 其 他 智能 摄像 机 中 ， 高 复杂 度 的 视频 编码 和 解码 
的 移动 电话 的 运算 已 经 应 用 在 了 DSP 软件 中 。 像 H. 263 和 MPEG-4 视频 标准 。 各 
种 各 样 的 摄像 机 电话 产品 正在 使 用 可 编程 多 媒体 应 用 处 理 器 ， 如 用 于 图 像 和 视频 功 
能 的 OMAPISIO 和 OMAP-DM270。 这 些 集成 在 一 个 芯片 上 的 多 处 理 器 系统 使 得 其 
他 软件 功能 可 以 用 在 摄像 机 电话 上 ， 包 括 视频 电话 或 者 面部 识别 时 人 脸 追 踪 的 智能 
功能 。 














第 2 部 分 
成 像 技 术 和 智能 摄像 机 架构 


BAw 光电 检测 规 、 像 素 和 信号 处 理 


Christoph Posch 


4.1 简介 


在 客观 世界 里 ， 成 像 系统 包括 具体 实物 或 场景 的 二 维 图 像 成 像 ， 大 多 数 情 况 
下 ,在 三 维 世 界 中 的 实体 和 平面 图 像 之 间 ， 系 统 为 他 们 提供 了 直接 通信 。 

几乎 所 有 的 智能 摄像 和 机 器 视觉 系统 都 包括 传感器 和 A-D 转换 器 ， 传 感 器 把 
电磁 辐射 能 量 转换 成 电子 信号 ; A-D 转换 器 把 模拟 信号 进一步 转换 成 可 以 由 计算 
机 处 理 的 数字 信号 。 大 部 分 机 器 视觉 系统 的 基本 功能 模块 是 相似 的 ， 

CD 收集 辐射 波 并 投影 到 图 像 平 面 的 设备 (例如 ， 镜头、 光学 镜片 ) ; 

@ 光电 转换 器 (例如 ， 光 敏 二 极 管 ); 

© 信息 读 取 单 元 电路 和 信号 调理 电路 (例如 ， 有 源 像素 传感器 ); 

D 像素 信号 读 出 电路 (例如 ，CCD 移 位 寄存 器 ) ; 

© 时 序 控制 电路 〈 例 如 ， 电 子 快门 ) ; 

© 信号 处 理 电 路 (例如 ， 互 相关 双 采 样 ) ; 

@ A-D 转换 器 ; 

(8) 接口 模块 。 

首先 ， 我 们 回顾 一 下 成 像 系 统 中 辐射 波 的 相关 特征 ， 接 下 来 介绍 光电 检测 器 接 
收 由 观测 物 或 场景 发 出 的 光 ， 并 把 它 的 能 量 转换 成 适合 进一步 处 理 的 电子 信号 。 在 
成 像 系统 中 ， 通 常用 传感器 的 二 维 阵 列 来 解决 光 的 二 维 空间 2 。 这 种 分 布 或 者 说 阵 
列 中 ， 单 个 传 感 元 件 接收 光 的 相对 差 值 ， 此 差 值 携带 场景 信息 。 

把 光 转 换 成 电信 和 号 的 线路 和 光电 检测 器 ， 被 称 为 感光 器 ， 它 是 构成 视觉 或 者 图 
像 传感器 的 基本 传 感 元 件 。 几 个 基本 类 型 的 感光 器 用 于 今天 的 成 像 仪 和 视觉 e [e gn 
上 。 由 于 传感器 和 读 出 技术 的 不 同 ， 在 传感器 阵列 内 部 经 常 附加 电路 ， 从 而 导致 像 
素 线路 更 加 复杂 了 。 

对 光电 检测 器 原始 信号 的 调理 或 者 某 种 形式 的 预先 处 理 通常 是 在 像素 层面 完成 
的 。 像 素 层 信号 处 理 涵盖 的 范围 很 广 ， 从 单一 的 集成 感光 器 (一 个 简单 的 标准 






































名 ”一 个 明显 的 例子 是 ,1D 行 扫描 传感器 主要 用 于 成 像 目 标 与 传 感 单元 行 户 线 互 相 垂 直 的 情况 。 
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CCD 和 CMOS 成 像 仪 中 的 缓冲 器 ) ， 到 像素 级 数字 或 模拟 可 编程 微 处 理 絮 (在 某 些 
先进 的 片上 视觉 系统 中 可 以 见 到 )。 预 处 理 的 模拟 信号 转换 成 某 种 形式 的 数字 形式 
也 能 在 像素 层面 实现 。 本 章 的 最 后 一 节 对 早期 的 视觉 、 信 和 号 预先 处 理 以 及 信和 号 转换 
的 像素 线路 做 了 一 个 概述 。 


4.2 辐射 与 成 像 


4.2.1 电磁 频谱 


机 器 视觉 不 止 限 于 由 物体 的 可 视 辐 射 或 照明 场景 发 出 的 可 见 光 。 众 多 成 像 检 测 
技术 的 发 展 允 许 使 用 其 他 类 型 的 光 来 探测 一 些 有 趣 的 场景 和 事物 。 与 成 像 应 用 相关 
的 电磁 辐射 频谱 涵盖 了 从 波长 为 100pm ~ 1mm RAR (Terahertz) 波段 ， 到 波 
长 为 10nm 或 更 短 的 X 射线 。 甚 至 波长 更 短 的 伽 马 射线 ， 被 用 在 核 医 学 、 高 能 物理 
学 以 及 天 文 应 用 。 E 发 现在 成 像 雷 达 应 用 上 。 
例如 ， 地 球 观测 、 医 学 [核磁 共振 成 像 (MRI) ] 和 天 文学 。 两 者 之 间 ， 存 在 很 罕 
ae ee ee XURAMR (UY) BEL. 
在 摄像 机 成 像 应 用 方面 ， 包 括 机 器 视觉 在 内 ， 电 磁 频 谱 应 用 最 广泛 的 区 域 是 可 见 光 
波段 ， 其 次 就 是 附近 的 发 热 红 外 线 。 图 4. 1 描绘 的 是 电磁 辐射 频谱 。 
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图 4.1 电磁 辐射 频谱 

















电磁 辐射 可 以 被 视 为 电磁 波 或 者 粒子 流 构成 离散 能 量 数据 包 ， 称 为 光子 。 一 个 
光子 以 光 的 速度 穿 过 空间 ， 携 带 大 量 与 相关 电磁 波 频率 ”成 正比 〈 与 波长 A 成 反 
比 ) 的 能 量 : 





Ey, -hy =" Cal 
stra, FAAA h 26.626 x107 (J-S); 光速 c=2.998 x10 (ms), 
自然 常数 e 关系 到 电磁 波 的 波长 和 频率 。 单 个 光子 的 能 量 通常 用 电子 伏特 (eV) 


表示 ，1leV 即 电场 中 1V 电压 差 所 形成 的 能 量 。 
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由 于 光子 是 中 性 粒子 ， 不 带电 荷 ， 所 以 使 用 这 种 粒子 很 方便 ， 如 同 电磁 辐射 通 
是 通过 辐射 与 带电 粒子 的 相互 作用 来 检测 的 。 例 如 ， 在 固态 传感器 中 ， 光 子 撞击 
的 能 量 把 电子 从 价 电子 能 带 提 升 到 半导体 导 带 ， 把 它们 转化 为 能 读 出 和 处 理 的 电信 
。 带 隙 能 量 ,， 物 质 属性 ， 定 义 了 这 一 过 程 所 需 的 最 小 光子 能 量 。 因 此 通过 经 
验 可 知 光电 检测 器 材料 对 光子 能 量 辐 射 E, > E, 是 敏感 的 。 例 如 ， 硅 (Si) 的 带 院 
能 量 为 1. leV， 因 此 只 能 检测 低 于 1. lpm 的 波长 。 另 一 种 不 同 的 半导体 材质 镑 化 
钢 (InSb) ， 带 隙 能 量 仅 为 0.18eV， 对 6. 9pm 以 下 的 波长 敏感 。 因 此 ， 锐 化 钢 用 
作 波 长 在 3 ~5pm 范围 的 红外 摄像 机 材料 ， 而 硅 传感器 通常 用 于 可 见 光 。 


4.2.2 物理 量 和 单位 


单个 光子 的 能 量 取决 于 联合 电磁 波 的 波长 ， 而 与 知觉 亮度 相关 的 光 强 取决 于 每 
个 单位 时 间 和 面积 的 光子 数 。 对 于 可 见 光 ， 人 了 眼 对 不 同 波长 电磁 波 的 感觉 就 是 颜 
色 。 人 了 眼 可 见 色光 波长 范围 为 380 ~780nm。 这 个 范围 内 波长 相对 均衡 的 混合 光 被 
认为 无 色 或 者 单 色 。 单 色光 的 唯一 属性 就 是 光量 或 者 单 色光 的 强度 。 相 关 感 知 就 是 
介 于 白色 和 黑色 之 间 的 灰 度 值 。 

亮度 对 光 强 度 的 感知 是 很 主观 的 测量 ， 且 亮度 测量 与 彩色 没有 关系 ， 光 辐射 的 
物理 属性 是 可 以 测量 的 。 辐 射 通 量 是 辐射 源 放射 出 的 总 能 量 ， 以 瓦特 (W) Ud 
照度 (W/m ) 计量 ， 辐 照度 即 每 单位 面积 通过 光电 检测 器 ( 见 表 4.1) 获得 的 能 
量 。 考 虑 到 人 眼 的 光谱 响应 ， 辐 射 度量 可 以 转换 成 光度 量 (1m) 和 照度 (Imm. 
BY Ix) c 
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R41 基本 辐射 量 和 光度 量 


















































辐射 最 | 单位 定义 光度 量 单位 定义 
功率 (发 射 或 接 
辐射 通 量 | W | 功率 (发射 或 接收 ) | 光 通 量 | dm lumen) P Teea 
单位 面积 上 接收 的 单位 面积 上 接收 的 
A Spt HE m? 照度 Im/m? 21x (lux 
辐射 / W/ 功率 上 m/ (lux) 功率 


























对 于 明 视 觉 ， 辐 射 度量 到 光度 量 的 转换 由 下 式 给 出 : 
p. 683ImW | 0, v (A) dà (4.2) 


SUP, VA) 作为 眼睛 的 明 视 光谱 发 光 效 率 函 数 ， 它 计算 眼睛 随 着 波长 的 反应 变化 
关系 。 明 视觉 相对 光谱 发 光 效 率 曲 线 峰值 为 555nm ( 见 图 4. 2) 。 该 曲线 是 由 国际 
照明 委员 会 (CIE) 规范 化 的 ; V (A) 的 表 值 可 以 在 参考 文献 [121] 中 找到 。 

把 辐射 能 量 转换 成 电信 号 是 光电 探测 器 的 任务 。4.3 节 概 述 了 成 像 检测 器 的 基 
本 特性 ， 这 种 检测 器 和 图 像 的 辐射 度量 解释 相关 ， 重点 是 在 可 见 光 范 围 内 使 用 的 
技术 。 
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[14.2 ”对 于 “标准 ” 光 适 应 的 眼睛 ， 用 光谱 发 光 效 率 
函数 表示 适 亮 视觉 VCA) 




















4.3 成 像 检测 器 


检测 电磁 辐射 的 各 种 技术 在 过 去 的 几 十 年 已 经 成 为 广泛 的 研究 课题 。 几 乎 所 有 
的 检测 絮 可 以 划分 为 三 个 基本 类 别 ， 它 们 之 间 的 区 别 在 于 辐射 能 量 转换 为 电信 号 的 
物理 过 程 。 

1. 量子 检测 器 

该 检测 絮 的 类 型 基于 量子 光电 效应 ， 并 直接 影响 单 光子 。 每 个 被 吸收 的 光子 产 
生 作为 电信 和 号 读 出 的 自由 电荷 。 光 子 检测 器 是 机 器 视觉 应 用 最 重要 的 传感器 。 它 们 
涵盖 了 从 X 射线 到 紫外 线 和 可 见 光 ， 以 及 红外 线 的 整个 电磁 辐射 范围 ， 一 个 重要 
的 例子 就 是 固态 传感器 。 

2. 热 检测 器 

热 检测 吉 依 赖 于 与 温度 相关 的 电 性 能 检测 器 材料 。 吸 收 的 电磁 辐射 改变 检测 需 
元 件 的 温度 并 由 此 改变 了 相关 变量 。 热 检测 器 的 信号 与 检测 器 元 件 瞬 时 温度 成 正 
比 ， 该 元 件 总 是 与 它 所 处 的 环境 保持 热平衡 。 热 检测 器 成 像 的 灵敏 度 基本 上 与 波长 
无 关 。 热 红外 成 像 的 微 测 辐射 热 计 阵 列 广泛 用 于 热 检测 天 类 型 的 例子 中 。 

3. 相干 检测 器 

相干 检测 器 把 所 接收 光子 的 电磁 场 和 本 地 振荡 器 发 生 同 频率 的 参考 场 结合 起 
来 ， 直 接 测量 入 射 光 的 电磁 场 。 相 干 检测 顺 用 于 监测 相对 频率 低 的 辐射 ， 范 围 从 无 
线 电 和 微波 频段 到 亚 毫 米 波段 。 

4.4 节 ， 我 们 将 重点 讨论 量子 检测 器 ， 它 是 机 器 视觉 系统 中 的 最 常见 的 一 种 类 
型 ， 用 于 测量 电磁 频谱 的 红外 、 可 见 光 以 及 紫外 线 波段 ， 在 功能 性 和 适用 性 方面 体 
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现 了 基础 物理 机 制 和 辐射 计 的 属性 。 


4.4 ”半导体 光电 检测 器 





基于 半导体 材料 的 量子 光电 检测 器 是 使 用 最 广泛 的 检测 器 ， 可 用 来 探测 红外 
线 、 可 见 光 以 及 紫外 线 波 段 。 该 检测 器 可 以 将 以 电磁 辐射 或 光子 形式 接收 到 的 光 信 
号 转变 为 自由 载 流 子 形式 的 原始 电信 和 号。 这 一 转变 包括 两 项 基本 功能 : 中 用 生成 的 
自由 电荷 载 流 子 来 响应 人 射 光 ; @ 分 离 和 收集 的 电子 和 空 穴 。 在 其 他 电子 元 器 件 的 
辅助 配合 下 ， 输 出 电信 号 可 以 被 传输 和 做 进一步 处 理 。 


4.4.1 固态 光电 传感器 的 简介 


本 节 不 详细 介绍 半导体 物理 学 ， 只 是 简要 回顾 固态 光电 传导 的 基本 原理 ， 并 对 
一 些 重要 的 名 词 术 语 进 行 介绍 和 定义 。 关 于 这 一 问题 的 经 典 和 非常 全 面 的 参考 资料 
是 参考 文献 [517] ， 更 好 的 参考 是 参考 文献 [597, 500], 

量子 力学 表明 ， 束 缚 于 一 个 孤立 原子 核 的 电子 只 能 占据 离散 的 能 级 ， 能 级 之 间 
为 禁 带 。 当 许多 原子 形成 晶体 ， 这 些 离散 能 级 不 断 扩 大 ， 形 成 连续 的 能 带 ， 能 带 之 
间 仍 有 禁 带 。 当 温度 为 OK 时 ， 最 低能 带 并 没有 被 完全 占据 ， 所 有 较 高 能 带 被 称 为 
导 带 。 所 有 较 低 能 带 完 全 被 电子 填充 ， 称 为 价 带 。 在 电导 体 中 ， 最 低 导 带 被 部 分 占 
据 ， 而 绝缘 体 和 半导体 的 导 带 在 OK 时 是 空 的 。 

最 高 价 带 和 最 低 导 带 之 间 的 间隔 就 是 我 们 所 说 的 带 隙 能 量 书 ， 它 在 物质 的 分 
类 以 及 在 辐射 探测 器 的 应 用 方面 发 挥 着 重要 的 作用 。 绝 缘 体 材料 中 的 E, 明显 大 于 
半导体 材料 中 的 。 

电导 体 中 ， 带 负电 和 荷 的 电子 是 唯一 有 效 的 电荷 载体 。 一 个 半导体 晶体 ， 当 温度 
上 升 至 0K 以 上 时 ， 价 带电 子 获 得 足够 的 能 量 ， 从 价 带 跳 转 至 导 带 。 价 带 中 获释 的 
位 置 可 以 被 认为 带 正 电 ， 称 为 空 穴 。 无 论 是 导 带 电子 还 是 价 带 空 穴 都 有 助 于 提高 导 
电 性 ， 使 在 半导体 中 有 电荷 传输 。 实 际 上 空 穴 不 运动 。 然 而 ， 移 动 的 电子 可 以 填充 
一 个 空 穴 ， 而 在 唱 格 里 ， 它 移 走 的 位 置 却 变 成 了 一 个 空 穴 。 所 以 空 穴 变 换 自 己 的 位 
置 ， 看 起 来 好 像 是 带 正 电 荷 的 粒子 在 运动 。 

当 电 场记 作用 于 半导体 时 ,带电 电荷 受到 的 力 为 | gk1 ， 其 中 9 是 基本 电荷 。 
由 于 电磁 场 互 的 作用 ， 半 导体 中 载 流 子 的 平均 速度 取决 于 载 流 子 迁 移 率 从 、 物 质 常 
数 、 电 场 : 1v1 =AIEI。 空 穴 的 迁移 率 几 通常 比 电 子 的 迁移 率 j, 要 小 。 

没有 杂质 的 半导体 晶体 被 称 为 本 征 半导体 。 如 上 所 述 ， 本 征 半导体 内 的 电荷 载 
流 子 对 是 通过 热 激发 而 产生 的 。 因 此 ， 移 动 电荷 载 流 子 的 数目 取决 于 温度 。 空 穴 和 
电子 的 数目 相等 。 例 如 ， 硅 中 的 本 征 载 流 子 在 300K 时 浓度 为 1.45 x 10^ em ^, 

半导体 的 导电 性 可 以 通过 添加 杂质 到 晶 格 结构 中 进行 改善 。 控 制 添 加 杂质 到 半 
导体 的 过 程 称 为 摊 杂 。 挫 杂 的 半导体 通常 称 为 非 本 征 半导体 。 通 过 为 纯 半导体 添加 
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杂质 来 增加 电子 或 空 闪 的 数目 ， 其 电导 率 的 提高 不 仅 取 决 于 添加 杂质 的 多 少 ,而 且 
还 取决 于 杂质 原子 的 种 类 。 因 此 ， 非 本 征 半导体 中 电子 和 空 穴 的 数目 不 再 相等 。 所 
以 我 们 可 以 制造 两 种 类 型 的 摊 杂 半导体 ， 即 n 型 大量 的 电子 作为 载 流 子 ; p, 
有 较 多 的 空 穴 。 半 导体 材料 中 的 主要 载体 就 是 所 谓 的 多 数 载 流 子 ， 其 余 是 少数 载 流 
子 。 两 种 类 型 的 半导体 可 以 结合 起 来 ， 实 现 一 定 的 功能 或 特点 。 最 简单 的 例子 是 二 
极 管 p-n 结 。 

除了 通过 热能 ， 电 子 也 可 以 被 高 能 粒子 激发 到 导 带 ， 例 如 被 半导体 材料 吸收 的 
光子 。 这 个 过 程 可 以 生成 电子 一 空 闪 对 。 光 子 触 发 带 间 跃迁 的 最 小 能 量 等 于 带 际 能 
量 已 。 在 缺乏 电场 的 情况 下 分 离 电荷 载 流 子 ， 电 子 一 空 穴 对 在 经 过 一 段 平 均 时 间 
( 载 流 子 寿 命 ) 后 重组 ， 并 将 先前 吸收 的 能 量 以 光 或 热 的 形式 进行 辐射 。 为 了 检测 
和 利用 光 信 号 ， 必 须 阻 止 由 光子 生成 的 自由 载 流 子 重组 ， 并 对 它们 进行 收集 。 这 样 
一 来 ， 通 过 撞击 辆 射 产 生 的 电荷 载 流 子 就 可 以 转变 成 电信 号 ， 因 此 半导体 晶体 常用 
f Egi p pr nas 0 


4.4.2 光电 检测 器 的 品质 因数 


衡量 检测 器 操作 的 常用 参数 有 响应 率 、 量 子 效率 、 噪 声 等 效 功 率 (NEP) 和 检 
测 率 等 。 


响应 率 表示 VO 关系 或 检测 器 增益 。 光 电 检测 器 的 响应 率 Ra CRS) 是 


光 致 光电 流 密度 ,和 单位 面积 上 入 射 光 功 率 P, 的 比率 : 
Jo 
Ra = P (4.3) 
量子 效率 凡 定义 为 每 次 撞击 光子 时 产生 的 光 生 自由 载 流 子 数 ， 通 常 以 百分比 形 
式 给 出 。 载 流 子 数目 为 光电 流 除 以 电子 电荷 刀 /qg， 光 子 数目 为 入射 光 功 率 除 以 一 
个 光子 的 能 量 P,/hyv: 




















Ti 
| q p hv 

d RU (4.4) 
hv 





对 于 给 定 的 量子 效率 ，R,, 随 着 波长 线性 增加 而 增加 ， 直 到 达到 材料 的 带 隙 能 
量 的 截止 波长 ， 例 如 ，1. 12pm 时 ， 硅 的 R,, 下 降 为 0。 


光 检 测 的 下 限 由 半 置 的 噪声 特性 来 决定 。 光 电 检测 器 的 噪声 i, (A) 
是 暗 电流 和 光电 流 的 热 噪 声 与 散 粒 噪声 的 总 和 的 平方 根 : 
i, = is + is 十 


其 中 ， 等 效 并 联 电阻 的 热 噪声 等 于 i = SLE. Woo tst oc e oc OR 
sh 





(4.5) 
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噪声 i = /291B，B 为 噪声 带宽 。 噪 声 等 效 功率 (NEP， 单 元 为 W) 定义 为 人 射 光 
的 强度 ， 前 提 条 件 是 能 产生 与 噪声 电流 大 小 相等 的 电流 ， 或 是 能 在 1Hz 带宽 下 ， 
产生 统一 的 信 噪 比 (SNR): 

















I. 
ls (4.6) 
RRD , m SWISTIR 4 和 带宽 B 的 乘积 的 平方 
根 与 NEP 的 比值 
JAB 
Ze (4.7) 





响应 时 间 是 光电 检测 需 的 另 一 个 重要 的 性 能 参数 ， 特 别 是 在 高 速 光 纤 通 信 系统 
中 。 参 考 文献 [517] 对 半导体 光电 检测 需 做 了 进一步 的 综合 研究 。 


4.4.3 半导体 光电 检测 器 的 类 型 


4.4.3.1 光电 导体 

光电 导体 通过 改变 检测 器 材料 的 阻抗 /电导 率 来 响应 人 射 光 。 本 征 光 电导 体 是 
实现 固态 光电 检测 器 最 简单 的 途径 ， 其 只 是 在 半导体 两 端 添加 了 电阻 性 的 接触 件 
( 见 图 4.3a) 。 在 正常 温度 下 ， 相 对 来 说 ， 极 少 的 电子 占据 着 半导体 的 导 带 ， 造 成 
物质 的 电导 率 低 。 撞 击 光子 产生 的 电荷 载 流 子 提高 了 电导 率 。 电 流 用 来 响应 外 部 电 
压 ， 穿 过 器 件 的 电流 大 小 取决 于 入 射 光 的 功率 。 可 检测 到 的 最 小 光子 能 量 由 检测 器 
qr s ue qu RO QU ed QM d th 量子 效率 通常 为 
60% 。 光 电导 体 的 主要 缺点 是 强 噪 声 和 低 响应 速度 。 光 电导 体 在 图 像 传 感 器 中 并 未 
广泛 使 用 。 

4.4.3.2 光敏 二 极 管 

光敏 二 极 管 〈 见 图 4.3b) 是 CMOS 图 像 传感器 中 使 用 最 广泛 的 检测 器 ， 可 用 
于 检测 可 见 光 、 近 红外 线 和 紫外 线 的 相 邻 波段 。 光 敏 二 极 管 是 基于 p 型 和 nm 型 半 导 
体 结 或 p 型 - 绝缘 层 -n 型 结构 (PIN 二 极 管 ) 的 。 靠 近 接 触 区域 的 自由 电荷 载 流 子 
会 相互 作用 形成 一 个 电场 ， 该 电场 把 光 产 生 的 电子 一 空 穴 对 分 开 ， 从 而 形成 耗 尽 
所 以 耗 尽 区 域 应 做 得 狭窄 些 ， 但 为 了 量子 效率 最 
大 化 ， 耗 尽 层 应 尽 可 能 地 厚 ， 使 得 大 部 分 入 射 光子 能 被 吸收 。 因 此 设计 时 要 在 速度 
a c 

光敏 二 极 管 可 以 在 三 种 偏 置 模式 下 工作 : 光敏 (高级) 模式 ， 光 敏 导 体 (二 
RE) 模式 和 雪崩 模 式 〈 见 图 4.4) 。 作 为 一 个 图 像 检测 器 ， 通 常 工 作 在 反 向 偏 置 
二 极 管 模 式 下 。 通 过 光敏 二 极 管 的 电流 是 扩散 〈 暗 ) 电流 Li 和 光电 流 1 的 总 和 。 
光电 流 和 入 射 光 强 度 呈 线性 关系 。 在 近 红 外 (NIR) 附近 0.8 ~0.9pm 之 间 的 波 
段 ， 具 有 抗 反射 涂 层 的 硅 光 敏 二 极 管 的 量子 效率 接近 100% 077, 






































48 智能 摄像 机 








V0 
hv N 
p I Req a /\ 
Si 
GND 





a) 





c) GND 
d) 





图 4.3 半导体 器 件 的 横 截 面 
a) 光电 导体 b) 光敏 二 极 管 c) (ŒH p-n-p) 光敏 晶体 管 d) 光电 门 











在 光敏 模式 下 ， 二 极 管 没 有 外 部 电压 供电 。 在 光敏 二 极 管 的 p-n 结 里 面 或 附 
近 ， 大 于 带 隙 能 量 的 光子 被 吸收 ，p-n 结 的 接触 电势 形成 的 电场 就 会 拉动 电子 一 空 
穴 。 电 子 被 电场 从 p 型 区 拉 到 n 型 区 ， 空 穴 则 从 n 型 区 拉 到 p 型 区 。 由 于 器 件 的 电 
荷载 流 子 在 空间 上 被 分 离 ， 从 而 产生 了 一 个 电压 。 如 果 在 n 型 和 p 型 区 域 之 间 是 电 
气 意义 上 的 连接 ， 那 么 两 区 域 之 间 就 会 形成 电流 ， 从 而 产生 了 所 谓 的 光电 效应 。 

在 雪崩 模式 下 ， 光 敏 二 极 管 在 雪崩 击 穿 条 件 下 展示 了 碰撞 电离 所 导致 的 电流 增益 效 
应 。 也 就 是 说 ， 每 个 被 吸收 的 光子 都 会 激活 大 量 的 电荷 载 流 子 。 例 如 ， 雪 前 二 极 管 作 为 
离子 检测 需 应 用 于 高 能 物理 实验 或 图 像 处 理 技术 中 ， 比 如 正 电子 成 像 技术 (PET), 

4.4.3.3 光敏 晶体 管 

光敏 晶体 管 通常 是 纵向 或 横向 的 na-p-na 或 p-n-p 双 极 性 晶体 管 结构 ， 其 基 级 一 
集 电极 结 用 来 接收 光线 (WE 4.30) 。 它 被 视 为 内 置 放大 器 的 光敏 二 极 管 ， 而 且 电 
流 增 益 > 1。 因 为 光敏 晶体 管 的 高 频 特 性 较 差 ， 所 以 很 少 应 用 于 固态 成 像 系 统 中 。 

4.4.3.4 光电 门 

光电 门 相当 于 MOS 电容 ， 它 可 以 将 冲击 光子 转换 成 储存 电荷 ， 而 不 是 光电 流 
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图 4.4 光敏 二 极 管 J-V 特性 曲线 
或 电压 信号 〈 见 图 4.3d) 。 在 相应 偏 置 下 ， 电 容 在 门下 的 耗 尽 层 中 积累 光 和 后 载 流 
子 ， 与 光照 强度 成 比例 的 进行 充电 。 和 其 他 大 多 数 光 电 检 测 需 不 一 样 ， 其 在 上 曝光 期 
间 没 有 外 部 光电 流 流 过 。 光 电 门 是 CCD 图 像 传感器 中 的 基本 元 件 ， 接 下 来 的 部 分 
将 对 其 进行 介绍 。 


4.5 基本 像素 结构 








4.5.1 电荷 耦合 器 件 (CCD) 


基于 光电 门 检测 器 的 一 个 CCD 像素 是 一 种 拥有 多 唱 硅 门 作为 高 压 电 荷 的 MOS 
电容 器 。 在 一 个 成 像 系统 中 ， 每 个 CCD 的 像素 都 被 紧密 地 排列 在 一 起 ， 这 样 就 可 
以 作为 模拟 移 位 寄存 器 。 在 上 曝光 的 时 间 内 ， 加 在 栅 极 的 电势 会 使 势 阱 的 光 生 电荷 持 
续 地 积累 。 典 型 的 曝光 时 间 为 100ms ~ 100p, 

通过 把 一 系列 的 同步 电压 信和 号 施加 到 两 极 ， 积 累 的 电荷 就 会 被 移动 到 邻 哇 。 图 
4.5 说 明了 电荷 在 CCD 器 件 中 的 转移 。 为 了 转移 电荷 ， 加 在 G, 极 的 电压 要 迅速 地 
升 高 ， 而 加 在 相 邻 G, 极 上 的 电压 要 缓慢 地 降低 。 因 此 在 曝光 时 间 内 ， 储 存在 G, 极 
的 电荷 被 转移 到 G, 极 的 势 阱 下 。 重 复 上 述 过 程 ， 每 个 像素 的 积累 电荷 最 终 会 充满 
整个 阵列 ， 通 过 电荷 灵敏 放大 器 的 处 理 ， 积 累 电 荷 被 转换 成 电压 或 电流 信和 号。 通过 
使 用 边缘 场 和 几 十 MHz 的 时 钟 频 率 ， 两 个 势 阱 之 间 的 转换 效率 可 以 达 
到 99. 99% 1571 。 


4.5.2 CMOS 感光 器 
在 CMOS 像素 中 ， 光 学 检测 单元 和 前 端 电路 被 称 为 感光 器 。 在 这 部 分 中 ,我 们 
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图 4.5 一 个 CCD 电荷 的 转移 周期 。 其 中 ， 时 钟 相 位 $8, o, 加 在 门 GI ~ G4 E, 
相应 于 时 钟 信号 ， 电 荷包 的 表面 势能 V ZEAE EB BE ERE 











会 研究 和 比较 基于 光敏 二 极 管 的 感光 器 电路 ， 这 种 电路 可 以 把 输入 的 光 信号 转换 成 
电荷 、 电 流 或 者 电压 。 感 光 融 电路 以 它们 的 工作 方式 进行 分 类 ， 包 括 积 分 /采样 或 
者 连续 时 间 方式 。 

在 给 定 的 积分 阶段 ， 采 样 像素 对 从 检测 需 到 电容 器 的 感应 光电 流 进行 积分 。 通 
常 ， 光 敏 二 极 管 本 身 的 寄生 电容 作为 积分 电容 。 在 每 次 积分 前 ， 光 敏 二 极 管 都 会 复 
位 并 且 电 容 在 给 定 的 参考 电压 下 提前 充电 。 在 复位 信号 后 的 一 个 给 定时 间 内 ， 通 过 
电容 贺 的 电压 构成 了 输出 信号 ， 同 时 也 携带 此 时 人 射 光 的 信息 。 连 续 时 间 的 感光 咒 
把 连续 的 光电 流 直接 转换 成 输出 电压 或 电流 。 许 多 “智能 ”视觉 传感器 就 是 利用 
连续 时 间 感 光 带 ， 在 时 间 域 或 者 空间 域 上 处理 前 期 视觉 信和 号。 

有 三 种 基本 类 型 的 感光 名 ， 电 和 荷 模式 、 电 流 模式 和 电压 模式 。 电 和 荷 模式 电路 是 
积分 /采样 像素 的 基本 结构 ， 而 电流 模式 和 电压 模式 电路 组 成 了 基本 的 连续 时 间 感 
光 器 类 型 。 在 参考 文献 [578] 中 ， 详 细 比 较 和 介绍 了 基于 信息 速率 的 感光 器 。 

积分 (电荷 模式 ) 感光 器 ( 见 图 4.6a) 由 一 个 光敏 二 极 管 和 一 个 复位 电路 组 
成 。 由 行 选择 开关 唱 体 管 和 一 个 跟随 缓冲 器 完成 ， 这 种 结构 组 成 了 基本 的 CMOS 有 
源 像素 传感器 ，APS 可 在 大 多 数 的 CMOS 图 像 传 感 顺 找到 ， 基 于 以 欧姆 为 单位 的 电 
阻 ， 线 性 电压 模式 电路 〈 见 图 4. 6b) 将 光电 流转 换 为 输出 电压 。 通 过 使 用 I-V 特 
性 为 对 数 曲 线 的 负载 元 件 ， 可 以 实现 亮度 信息 的 对 数 编码 。 这 是 有 用 的 ， 例 如 ， 增 
加 了 传 感 融 的 动态 范围 。 连 续 时 间 电 压 横 式 感光 需 可 用 于 许多 “智能 ”视觉 和 图 
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像 传感器 ， 将 在 本 节 后 面 介绍 。 在 电流 模式 感光 带 (LA 4.6c) 中 光电 流 直接 发 
送 到 一 个 处 理 电 路 。 与 像素 级 的 信号 处 理 相 比 ， 该 方案 具有 一 定 的 优势 。 将 在 


4.6.1 节 讨 论 。 


p---------------------4 p------- 


| xe | 





a) 电荷 模式 (积分) 





b) 电压 模式 (连续) 











图 4.6 基本 的 CMOS 感光 器 


c) 电流 模式 ( 连续) 


下 面 的 内 容 将 涉及 CMOS 图 像 传 感 器 ， 在 基本 图 像 传 感 技术 方面 对 CCD 和 
CMOS 进行 比较 ， 并 给 出 结论 。CMOS 图 像 传 感 器 的 概述 以 及 其 应 用 可 以 在 参考 文 
HK [188, 62, 585, 414] 中 查 到 。 


4.5.3 CMOS 无 源 像 素 传 感 器 (PPS) 
Weckler 在 1967 年 首先 提出 光敏 二 极 管 积分 的 无 源 像素 方法 '*] ， 如 图 4.7 所 


示 。 像素 电 路 只 由 一 个 光敏 二 
极 管 和 储存 晶体 管 组 成 ， 工 作 


光敏 二 极 管 时 ， 光 敏 二 极 管 的 
电压 复位 到 总 线 电压 ， 与 光 信 
号 成 比例 的 电荷 通过 电荷 积 4 
放大 器 被 转换 为 电压 。 





行 选择 





N 


r-------------------:]|----- 


方式 类 似 于 动态 随机 存 取 存 储 | 
器 (DRAM) 。 当 储存 晶体 管 被 | 
激活 时 ， 光 敏 二 极 管 通过 一 个 | 
列 总 线 与 电荷 积分 放大 器 | 
(CIA) 相连 。 随 着 储存 晶体 管 | 
的 释放 ， 光 敏 二 极 管 以 与 人 射 | 
光 成 比例 的 速率 放电 。 当 通过 | 


图 4.7 CMOS PPS 的 基本 像素 电路 ， 
带 有 列 读 出 的 电荷 放大 需 


无 源 像素 结构 单 品 光敏 二 极 管 的 填充 系数 (光敏 二 极 管 的 像素 面积 与 总 面积 
比值 ) 最 高 可 达 90% 。 另 外 ， 在 输出 时 ， 由 于 像素 电路 中 大 规模 总 线 电容 的 原因 ， 
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无 源 像 素 传感器 灵敏 度 降低 而 且 输 出 噪声 增 大 ， 最 终 限 制 了 大 规模 像素 矩阵 的 扩展 
或 者 帧 速率 的 提高 。 因 为 列 放 大 器 不 匹配 ， 所 以 无 源 像素 传感器 阵列 容易 受 固 定 模 
式 噪声 (FPN) 的 影响 。 


4.5.4 CMOS 有 源 像 素 传感器 (APS) 


首先 ， 我 们 从 CMOS 无 源 像素 传感器 的 实验 中 得 出 一 条 结论 ， 缓 存 器 /放大 器 
能 够 提高 像素 性 能 "1 。 每 个 像素 内 部 存在 有 源 放大 器 的 传感器 被 称 为 有 源 像素 传 
感 器 或 APS。 无 源 像 素 传感器 以 像素 放大 器 来 提高 性 能 ， 相 对 而 言 ，CMOS 有 源 像 
素 传 感 器 以 降低 填充 因子 来 提高 性 能 。 目 前 有 源 像素 传感器 的 像素 填充 系数 一 般 为 
50% ~70% 。 虽 然 我 们 可 以 通过 降低 输出 噪声 来 对 电路 进行 补偿 ， 但 光 信 和 号 的 损失 
远大 于 这 个 补偿 值 ， 从 而 导致 信 噪 比 (SNR) 和 动态 范围 的 增加 。 

有 源 电路 的 应 用 通常 是 用 作 简 单 的 源 极 跟随 器 ， 这 个 跟随 器 既 可 以 作为 放大 器 
又 可 以 作为 缓冲 器 ， 还 可 以 隔离 读 出 总 线 电 容 的 电荷 。 由 于 每 个 放大 器 仅 在 读 取 时 
启动 ， 所 以 功 耗 很 低 。APS 的 像素 主要 是 利用 光敏 二 极 管 或 光电 门 作为 检测 器 ， 并 
在 积分 模式 下 进行 信息 处 理 。 当 无 源 像素 传感器 直接 转移 累积 电荷 信号 到 外 部 时 ， 
有 源 像素 传感器 就 会 把 电荷 转换 为 像素 级 电压 。 一 般 有 源 像 素 传 感 器 会 受到 高 级 
FPN 的 影响 。 

4.5.4.1 光敏 二 极 管 (PD) APS 

1968 年 ， 诺 布尔 首次 对 光敏 二 极 管 型 APS 进行 命名 [1 20 世纪 80 年 代 以 
来 ，Andoh 对 此 进行 更 深入 的 研究 。 在 其 基本 形式 下 ， 像 素 包含 三 个 晶体 管 ， 
一 个 用 于 缓冲 光敏 二 极 管 电压 的 复位 光敏 二 极 管 (MR), 一 个 缓冲 光敏 二 极 管 列 
总 线 电 压 的 源 极 随 耦 器 (SF) 和 行 选 择 晶 体 管 (MS) ( 见 图 4.8)。 信 号 电荷 转化 
为 电压 发 生 在 光敏 二 极 管 节点 电容 ， 这 也 是 极 连 接 唱 体 管 的 总 电容 。 源 极 随 耦 器 负 
载 连接 到 列 总 线 ， 因 而 列 中 的 所 有 像素 是 共用 的 。 

在 复位 阶段 ， 复 位 晶体 管 工作 并 且 给 光敏 二 
极 管 加 上 一 个 参考 电压 。 光 敏 二 极 管 的 结 电容 相 
应 的 充电 。 在 积分 阶段 ， 复位 晶体 管 关闭 ， 电 容 mm 
进行 放电 并 且 光 电 电 流 与 人 射 光 成 比例 。 在 曝光 
时 间 结 束 时 ， 输 出 产生 电压 。 输 出 电压 在 黑暗 条 
件 下 较 高 ， 在 明亮 的 光照 下 较 低 。 b: Ms 

由 于 光电 电流 的 散 粒 噪声 和 复位 电压 噪声 的 
影响 (通常 也 称 为 kTC 噪声 ) ， 小 规模 像素 矩阵 
的 信 噪 比 (比较 4.4.2 节 ) 降低 ， 规 模 为 1/ 行 选择 输出 
JC, EPF Co 是 二 极 管 电容 。 积 分 APS 像素 的 图 4.8 CMOS 二 极 管 电路 图 
动态 范围 (DR) 定义 为 最 大 的 输出 电压 Vaa 和 
最 小 的 检测 信号 V;, 的 比值 (比较 4.4.2 节 )， 单 位 是 dB。 这 里 Vi 由 最 大 势 阱 电 
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容 决 定 ， 大 量 电荷 在 光敏 二 极 管内 部 积累 。 转 换 增 益 的 定义 是 
(V/e ) 引起 的 电压 变化 ， 等 于 1/ Cpo。 

因此 在 减 小 蕊 片面 积 时 ,设计 者 要 权衡 像素 填充 系数 (PD)、 动 态 范 围 (最 大 
BRAS) 和 转换 增益 。 

4.5.4.2 贸 接 式 光 敏 二 极 管 (PPD) ASP 

为 了 耦合 光 检 测 器 与 光 转 换 器 并 解决 PD APS 的 折 中 问题 ， 我 们 开发 出 了 铵 接 
式 光 敏 二 极 管 APS (PPD APS), AAR 
的 光电 和 荷 通过 转移 门 (TX) 转移 到 浮 
动 扩 散 区 (FD) ( 见 图 4.9)。 在 FD 的 
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电容 中 把 电荷 转换 为 电压 。 该 电路 拓扑 S; 
结构 允许 互相 关 双 采样 (CDS), Mili 
实现 抑制 噪声 。 在 噪声 性 能 方面 ，PPD 
ASP 优 于 标准 的 PD APS。 然 而 由 于 额 - 


外 增加 了 晶体 管 ， 填 充 系 数 降低 ， 电 容 
容量 也 受到 了 限制 。PPD APS 网 像 质量 
完全 能 够 与 CCD WS, KERAK 
极 管 的 一 个 重要 的 缺点 是 不 能 在 标准 的 HR 
CMOS 工艺 中 完成 [339,45] ` 

4.5.4.3 光电 门 (PG) APS 

光电 门 APS 在 1993 年 被 提 
出 2232234。 它 把 CCD 的 积分 工作 原理 和 像素 电荷 传输 结合 在 一 起 ， 并 实现 了 随 
机 存 取 读 出 。 最 初 的 信号 电 蓓 积累 在 光电 门 。 读 取 就 是 复位 浮动 扩散 区 并 且 测 量 产 
生 的 电压 。 信 号 电荷 通过 相应 的 脉冲 光电 门 传 送 到 输出 扩散 区 。 同 样 电压 被 测量 ， 
复位 电 平 与 信号 电 平 之 间 的 不 同 也 被 读 出 ， 实 现 了 真正 的 互相 关 双 采样 ， 同 时 我 们 
也 知道 了 互相 关 双 采样 (CDS) 在 抑制 复位 噪声 kTC 和 抵消 FPN 方面 有 许多 好 处 。 
PG APS 的 每 个 像素 用 5 个 晶体 管 (OLA 4. 10) 。 由 于 多 晶 硅 栅 极 的 光学 特性 ， 可 
以 通过 降低 量子 效率 来 改善 噪声 性 能 。 与 光敏 二 极 管 相 比 ， 光 电 门 像素 具有 更 高 的 
电容 容量 。PG APS 适合 工作 在 高 性 能 和 低 光 线 的 情况 下 ， 但 是 它 需 要 专门 的 加 工 
ds 

4.5.4.4 对 数 PD APS 

在 过 去 十 年 中 ， 提 高 CMOS 图 像 传 感 器 (通常 为 60 ~70dB) 的 动态 范围 达到 
自然 场景 > 120dB 的 动态 范围 已 是 广泛 研究 的 课题 。 因 为 光电 信号 被 压缩 或 者 扩 
展 ， 所 以 光 信 号 的 对 数 变 换 (像素 输出 信号 与 光 信 号 的 对 数 是 成 比例 的 ) 需要 考 
上 处 增 加 内 部 的 动态 范围 。 例 如 ， 一 个 工作 在 亚 临 界 区 域 的 MOS 晶体 管 ， 显 示 出 了 
XTA I- V 特性。 此 属性 可 以 被 用 来 实现 光 信 号 的 对 数 变 换 。 图 4. 11 给 出 了 一 个 示 
例 电路 ， 具 有 光 强 度 等 级 和 光电 流 (在 pA ~nA PY) 的 对 数 特性 ， 且 负载 晶体 管 工 





输出 

















图 4.9 p-n 结 二 极 管 电路 图 
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作 在 亚 临 界 状态 。 该 电路 是 连续 时 间 〈 非 积分 ) 的 类 型 。 

















行 选择 输出 


图 4.10 光电 门 APS 电路 原理 图 图 4.11 APS 对 数 二 极 管 
电路 原理 图 


























连续 时 间 方 法 的 缺点 是 在 低 光 照 水 平 下 响应 时 间 慢 而 且 易 产生 电压 波动 ; 但 其 
面临 的 主要 障碍 是 使 用 连续 时 间 对 数 感光 器 有 较 大 一 
固定 模式 噪声 (FPN) 。 在 各 种 像素 级 和 芯片 级 的 
校准 技术 和 方法 中 ， 把 像素 的 线性 和 对 数 响应 方式 
结合 起 来 ， 取 得 了 理想 的 结果 。 利 用 对 数 PD APS «| 
技术 使 得 场景 内 动态 范围 超过 了 六 级 ， 且 FPN 2E 
持 在 几 个 百分点 的 水 平 Pe A 98.121 一 一 | 

连续 时 间 对 数 二 极 管 光电 检测 器 可 以 工作 在 高 M 
增益 反馈 结构 中 ， 以 减少 寄生 电容 和 结 点 电容 的 
充 /放电 时 间 。 该 检测 器 的 带宽 和 速度 大 大 增 = 
we) 图 4.12 显示 了 基于 共 源 增益 级 (M, 和 图 4. 12 ” 共 源 反馈 式 对 数 光 感 器 
M,) 反馈 回路 的 对 数 感 光电 路 。 这 种 类 型 的 光电 
检测 器 可 以 应 用 在 具有 像素 级 模拟 信号 处 理 能 力 的 智能 传感器 上 ， 将 在 4.6.5 节 重 


新 介绍 。 
4.5.5 CMOS 与 CCD 比较 


CMOS 和 CCD 图 像 传感器 都 是 由 硅 制 作 而 成 的 ， 并 且 都 是 基于 相似 的 物理 过 
程 将 入射 光 转换 为 电荷 。 这 两 种 技术 都 可 以 作为 检测 器 ， 支 持 光电 门 和 光敏 二 极 
管 ， 而 且 在 可 见 光 和 电磁 波 红外 范围 内 ， 两 者 都 有 相似 的 基本 传 感 属 性 。 

CCD 在 抗 噪声 性 能 方面 能 提供 较 高 的 图 像 质量 。 虽 然 这 是 有 可 能 的 ， 但 是 实 
际 上 不 能 在 CCD 芯片 有 效 地 整合 其 他 功能 ， 如 时 钟 驱 动 、 时 序 控 制 逻 辑 电 路 或 信 
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号 处 理 模 块 。 大 多 数 CCD 摄像 机 系统 包含 至 少 3 个 或 者 更 多 芯片 。 在 CCD A, #8 
制 电 蓓 转移 的 不 同时 钟 信号 的 振幅 和 形状 是 十 分 重要 的 。 产 生 正 确 幅 度 和 形状 的 时 
钟 ， 通 常 由 专门 的 时 钟 驱动 絮 芯 片 完 成 。 多 个 供给 电压 和 高 功率 消耗 是 CCD 组 成 
系统 的 特征 。 

CMOS 图 像 传感器 和 CCD 具有 一 样 的 感光 方式 ， 但 这 只 是 相似 的 地 方 。CMOS 
累积 电荷 包 不 能 转移 ， 但 是 可 以 通过 电荷 感应 电路 传送 。CMOS 传感器 可 以 由 标准 
的 制造 工艺 生产 。CMOS 传感器 的 主要 问题 是 ， 当 匹配 单个 像素 放大 器 时 ， 有 严重 
的 固定 模式 噪声 (FPN), ， 但 该 问题 已 经 通过 使 用 芯片 校正 技术 解决 了 。 更 高 的 暗 
电流 导致 了 较 差 的 噪声 性 能 。CMOS 摄像 机 比 CCD 的 好 处 ， 主 要 在 于 其 在 传感器 
芯片 上 实现 了 几乎 所 有 的 电子 摄像 机 功能 。 不 但 集成 了 A-D 转换 模块 ， 而 且 能 完 
成 信号 处 理 、 时 序 逻 辑 和 曝光 控制 等 功能 ， 在 芯片 上 完成 片上 摄像 机 。 与 CCD fH 
比 ， 主 要 的 优点 是 单 供电 和 高 效 节省 功 耗 。CMOS 成 本 的 竞争 力 和 摄像 机 高 技术 的 
集成 度 均 超过 了 CCD, CCD 和 CMOS 图 像 传感器 的 主要 差别 和 共同 点 总 结 在 表 
4.2 中 。 




















表 4.2 CCD 和 CMOS 图 像 传感器 的 比较 





















































CCD CMOS 
图 像 质量 很 好 图 像 质量 处 于 中 低 水 平 
信 噪 比 高 〈 低 噪声 <40 电荷 ) 信 噪 比较 低 ( >20 电荷 ) 
低 FPN ( 暗 的 非 均匀 性 <1% ) 高 FPN (片上 校正 ) 
暗 电流 低 ( «I0pA/cm) 暗 电流 较 高 (mA/em? ) 
专 有 技术 主流 技术 
无 片上 的 ADC、 信 和 号 处 理 器 、 控 制 器 片上 设备 集成 〈 智 能 传感器 ) 
串 行 扫 措 读 出 随机 存 取 读 出 
驱动 和 接口 复杂 数据 接口 简单 
多 个 高 压 电 源 单 电 源 操 作 
系统 成 本 较 高 系统 成 本 较 低 








共同 的 特点 : 

频谱 响应 (400 ~ 1000nm) 
最 小 像素 的 大 小 (2 ~5pm) 
单位 面积 上 电荷 的 储存 量 
芯片 的 大 小 与 像素 的 数量 























4.6 像素 级 信号 处 理 





“智能 ”视觉 传感器 与 CMOS APS 或 CCD 等 标准 图 像 传感器 不 同 ， 属 于 预测 部 
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分 ， 对 信和 号 链 前 的 光 信 息 进 行 处 理 ， 特 别 是 像素 级 部 分 。 这 种 技术 /信和 号 处 理 类 型 
传感器 又 可 以 称 为 “早期 视觉 ”( 与 仿生 有 关联 ) 或 “ 焦 平面 处 理 ”(FPP) 。 

本 节 给 出 了 一 些 早 期 视觉 和 信号 预 处 理 的 电路 ， 曾 用 于 各 种 “智能 ”视觉 传 
感 器 像素 中 。 像 素 级 信号 处 理 的 范围 很 广 ， 在 每 个 像素 中 ， 它 的 应 用 范围 从 简单 放 
大 需 到 完全 可 编程 的 数字 或 模拟 微 处 理 器 。 像 素 级 信号 处 理 的 两 个 基本 种 类 分 别 是 
像素 内 部 (intrapixel ) 以 及 像素 之 间 (interpixel ) , 前 者 对 像素 内 部 信号 进行 处 理 ， 
后 者 是 对 儿 个 像素 进行 局 部 的 或 是 全 局 的 处 理 。Moini 发 表 的 文章 对 这 一 问题 进行 
了 很 好 的 概括 ”i ， 这 篇 文章 详细 地 论述 了 到 1997 年 为 止 的 所 有 重要 的 进展 。 参 
考 文献 [159] 对 这 个 问题 进行 了 介绍 。 参 考 文献 [408] 对 最 新 的 进展 进行 了 
介绍 。 

像素 级 处 理 是 指 对 来 自 非 积分 感光 器 的 光电 导体 信号 直接 进行 连续 的 处 理 ， 并 
且 来 自 积分 感光 需 的 光电 流 和 电压 可 以 在 积分 过 程 中 进行 处 理 。 很 多 像素 级 处 理 
(主要 是 interpixel 型 ) 都 致力 于 通过 提高 噪声 性 能 、 信 噪 比 、 动 态 范围 或 速度 来 提 
高 图 像 传 感 器 的 性 能 。 一 个 简单 但 很 突出 的 例子 就 是 通过 给 像素 电路 增加 源 极 耦 合 
av, 使 PPS 转变 为 APS, 

在 像素 级 上 可 以 实现 并 支持 诸如 电子 快门 。 相 关 双 采样 (CDS) 77 DUC t 
差分 "等 更 多 的 功能 。 

interpixel 为 计算 机 视觉 传感器 开辟 了 很 广 的 应 用 领域 ， 它 可 以 从 现场 提取 信息 
或 特征 ， 还 可 以 执行 诸如 运动 检测 、 边 沿 检测 、 光 流 或 分 割 任务 OO 。 大 规模 
并 行 处 理 像素 可 减 小 单一 处 理 单 元 所 需 的 速度 ， 可 以 在 模拟 电路 的 阔 值 范围 内 作 
业 ， 可 用 于 执行 复杂 的 计算 ， 且 消耗 功率 非常 小 5%1。 这 种 模式 促进 了 连续 时 间 动 
态 的 视觉 传感器 的 发 展 ， 正 如 其 生物 作用 模式 ， 使 用 异步 脉冲 〈 峰 值 ) 传送 场景 
变化 的 现场 动态 信息 。 这 种 模式 具有 很 高 的 时 间 分 辨 率 和 低 通 信和 带宽 要 求 |。 

脉冲 时 间 与 像素 照度 成 正比 ， 我 们 可 以 通过 控制 时 间 ， 在 时 域 或 频 域 上 对 照度 
进行 编码 。 在 像素 级 ， 脉 冲 频 率 或 脉冲 之 间 的 时 间 可 以 被 转换 为 数字 数据 ， 也 可 以 
使 用 同步 或 异步 数字 总 线 传递 到 片 外 。 

像素 电流 模式 允许 直接 执行 ， 如 加 法 或 乘法 的 运算 功能 ， 因 此 简单 以 及 中 等 复 
杂 的 图 像 处 理 任 务 可 由 传感器 直接 执行 。 

在 本 节 中 ， 给 出 了 几 种 像素 级 的 基本 视觉 任务 或 一 些 视 觉 信 息 处 理 的 实现 方 
法 。 这 部 分 没有 对 已 实施 的 完整 设计 进行 说 明 。 一 些 给 出 的 电路 只 是 最 近 首 次 或 即 
将 应 用 于 智能 摄像 机 或 成 像 仪 产 品 。 


4.6.1 电流 模式 像素 与 模拟 焦 平 面 处 理 


妆 处 理 焦 点 平面 图 像 时 ， 电 流 模 式 成 像 为 共 模 有 源 像素 传感器 提供 一 个 很 有 吸 
引力 的 选择 。 在 电流 模式 电路 中 ， 不 但 可 以 直接 实现 基本 的 算术 运算 功能 如 加 法 、 
减法 和 乘法 ， 而 且 在 这 种 模式 下 也 可 以 实现 积分 和 非 线 性 变化 。 目 前 ， 对 基于 电流 
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复制 电路 、 电 流 扩展 电路 以 及 具有 可 编程 镜像 比 电流 的 模拟 储存 器 进行 了 论 
TEA") 。 在 图 像 传感器 阵列 的 情况 下 ， 这 些 模 式 可 以 应 用 到 连续 时 间或 光电 流 积 
分 中 ， 以 完成 各 种 像素 内 部 和 像素 之 间 的 信号 处 理 任务 。 


Ma stg 


NW L col N 
小 Y 


Ms Loot 











行 选择 
a) b) 
图 4.13 连续 时 间 模 式 、 电 流 模 式 下 的 像素 读 出 电路 
a) 连续 时 间 模 式 b) 电流 模式 下 的 像素 读 出 电路 


图 4. 13a 中 给 出 了 连续 时 间 电 流 模 式 像素 的 基本 电路 ， 这 种 电路 具有 电流 镜像 
读 出 功能 。 非 均匀 电流 镜像 比 可 用 于 放大 光电 流 。 像 其 他 连续 时 间 的 光电 路 一 样 ， 
这 种 结构 具有 在 低 光 条 件 下 感光 度 低 、 非 线性 以 及 固定 模式 噪声 高 的 缺点 。 图 
4. 13b 给 出 了 光敏 二 极 管 电流 模式 像素 积分 的 原理 图 。 由 于 电流 模式 成 像 仪 的 图 像 
ROS) 较 低 ， 所 以 在 使 用 上 远 没 有 电压 模式 的 CMOS 有 源 像素 那么 普遍 。 多 重 采 
样 或 速度 饱和 读 出 的 方法 用 于 减少 FPN， 能 达到 预期 的 结果 [5 47220585 80) p BE 
考 文献 [70] 中 提 到 了 一 个 百 万 像素 的 电流 介 导 成 像 仪 ”3 的 低 功 耗 技 术 。 

无 论 是 在 焦 平面 图 像 处 理 占 领域 中 ， 还 是 在 细胞 神经 网 络 硬件 阵列 实现 中 ， 电 
流 模 式 像素 电路 和 信和 号 处 理 都 发 挥 了 很 大 作用 。 在 参考 文献 【450] 中 ， 更 深层 次 
地 介绍 了 电流 模式 技术 如 何 应 用 到 处 理 焦 平面 上 以 及 图 像 检测 和 处 理 方 面 5%1 。 在 
参考 文献 [202] 中 ， 提 到 了 基本 电流 模式 ， 初 级 视觉 是 256 x 256 的 像素 整 列 ， 
并 且 在 参考 文献 [148] 中 描述 了 一 个 能 完成 简单 视觉 任务 的 模拟 阵列 处 理 器 ， 它 
具有 二 进 制 成 像 以 及 可 编程 的 内 部 像素 处 理 功能 。 受 生物 学 启发 ， 人 们 利用 电流 模 
式 技术 研究 出 模拟 平行 阵列 处 理 器 ， 在 参考 文献 [94] 中 给 出 了 具体 说 明 。 在 过 
去 的 几 年 里 ， 人 们 千方百计 地 实现 了 复杂 的 时 空 处 理 史 3920639359,391] 。 

为 了 使 焦 平 面 低级 别 图 像 处 理 得 到 应 用 ， 人 们 利用 电流 模式 的 模拟 电路 技术 ， 
开发 了 具有 软件 可 编程 功能 和 单 指令 多 数据 (SIMD) 处 理 器 阵列 的 单 信道 单 脉冲 
言 息 处 理 机 ， 在 参考 文献 [151, 152] 中 详细 介绍 了 这 种 处 理 机 。ACE16k'”3*] 
是 复杂 视觉 片上 系统 的 第 三 代 产 品 "9 ， 包 含 128 x 128 个 混合 信号 SIMD 处 理 
单元 阵列 ， 具 有 可 配置 的 光学 传 感 央 ， 该 光学 传感器 能 够 相应 以 300km/s 操作 速 
度 执 行 各 种 早期 视觉 任务 (0,36 4.3), 
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表 4.3 像素 中 有 模拟 可 编程 或 者 数字 处 理 单元 的 视觉 芯片 对 比 "*] 
























































视觉 起 PVLSAR 2. 2/5] | NSIRI1581 SPE[L300] | ACE16k!33! | SCAMPI? | ASPA[335] 
阵列 大 小 128 x 128 32 x32 64 x 64 128 x 128 128 x128 128 x 128 
像素 感光 区 
. 60 x 60 118x118 | 67.4 x67.4 | 75.7 x TI.3 | 49.4x49.4 | 100x117 
大 小 /pm 
工艺 /pm 0.8 0.8 0. 35 0. 35 0. 35 0. 35 
处 理 类 型 数字 数字 数字 模拟 模拟 模拟 
8 个 模拟 " 
m = 9 个 模拟 
每 个 单元 的 内 存 Sbit 8bit 24bit 寄存 器 ，4bit E 64bit 
二 进 制 
GOPS 性 能 49 1.9 6.4 330 20 157 
芯片 大 小 /mm? 76 25 29.2 145.2 50 213.5 
每 个 芯片 的 功率 1W 0.1W / 2.9W 240mW 5.4W 
单位 面积 上 的 性 能 
> 92.6 1.1 343 3800 512 820. 8 
MOPS/mm* 
单位 面积 上 的 能 量 
5.4 25.2 7 180 85.3 29 
GOPS/W 




















4.6.2 基于 时 序 (PM) 的 像素 


在 基于 时 序 或 者 脉冲 调制 (PM) 的 成 像 方式 中 ， 我们 采用 脉冲 或 者 脉冲 边沿 
时 序 对 入 射 光 强度 进行 编码 ， 而 不 是 用 电荷 、 电 压 或 电流 。 

下 面 我 们 来 认识 一 下 基于 时 序 成 像 的 两 种 基本 方法 。 第 一 种 技术 被 称 为 脉 宽 调 
制 (PWM), 也 称 为 Time- to- threshold 或 Time- to- First- Spike (TTFS), 不 是 采用 光 
生 电 流 在 固定 时 间 段 (曝光 时 间 ) 内 积分 的 技术 ， 而 是 采用 像素 信号 达到 一 定 值 
时 停止 积分 的 技术 。 在 基本 的 PWM 实施 过 程 中 ， 像 素 电 压 重 置 为 一 个 固定 的 直流 
电压 ， 然 后 由 光 生 电流 对 光敏 二 极 管 电容 进行 放电 。 像 素 电 压 通 过 比较 器 与 一 个 基 
准 电 压 做 比较 。 当 达到 浆 值 时 比较 融 输 出 开关 量 。 复 位 与 比较 器 开关 之 间 的 时 间 段 
携带 了 平均 像素 光照 在 此 期 间 的 信息 。 在 参考 文献 [158, 401, 394, 75, 523, 
254] 中 给 出 了 带 PWM 功能 的 初级 视觉 传感器 像素 电路 。 

第 二 种 实现 脉冲 调制 成 像 的 基本 方法 被 称 为 脉 频 调 制 (PFM) ， 基 于 数字 脉冲 
瞬时 频率 或 脉冲 间隔 来 对 像素 亮度 信息 进行 编码 。 脉 冲 由 每 个 像素 中 的 光 控 振荡 器 
产生 。 然 后 ， 预 充电 的 光敏 二 极 管 电容 再 次 被 光电 流放 电 。 当 达到 阔 值 时 ， 产 生 一 
个 脉冲 ， 比 较 器 重 置 光敏 二 极 管 后 整个 循环 又 开始 了 。 脉 冲 之 间 的 时 间 ， 即 各 个 脉 
冲 的 频率 是 与 瞬时 像素 光照 成 比例 的 。 最 早 的 PFW 电路 出 现在 Frohmader $ A I? 
于 1982 年 发 表 的 论文 中 。 最 早 的 基于 PEW 的 图 像 传 感 器 是 在 1993 年 提出 的 [2 ， 
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并 且 在 1994 年 得 以 验证 4。 
在 图 4. 14a 和 b 中 给 出 了 基本 PWM 和 PFM 的 电路 。 


























b ) for ight Pak t 


图 4.14 脉 宽 调制 (PWM) 与 脉 频 调 制 (PFM) 的 基本 原理 以 及 信号 波形 
a) PWM b) PFM 











使 用 基于 时 间 的 方案 能 带 来 比 常规 CMOS APS 图 像 传 感 器 更 宽 的 动态 范围 。 因 
为 积分 时 间 与 光 生 电流 成 反比 ， 成 像 仪 的 动态 量程 受到 积分 时 间 的 限制 ， 而 积分 时 
间 的 动态 范围 可 以 测量 ， 因 此 其 不 再 受 供电 通道 数 的 限制 。 或 者 从 另 一 方面 来 看 ， 
基于 时 间 的 方法 允许 每 个 像素 选择 自己 的 光 积 分 时 间 ， 这 意味 着 可 以 实现 高 的 动态 
量程 以 及 改善 信 噪 比 。 

PWM 和 PFM 作为 像素 级 A-D 转换 方案 的 一 部 分 经 常 被 使 用 。 这 部 分 内 容 在 
后 面 的 内 容 中 继续 介绍 。 

PWM/PFM 像素 可 以 与 异步 数字 阵列 读 出 〈 地 址 事件 表示 形式 ，AER) 907r 
式 相 结合 ， 将 像素 脉冲 传送 到 片 外 。 这 种 方法 产生 了 各 种 诸如 TTFS 类 型 的 成 像 
[y eamm soin oo e eee ^, PEM 数字 像素 同样 适用 于 需要 异步 独 
立 运算 的 人 工 视网膜 1。 

有 些 视觉 设备 已 经 不 在 同步 系统 的 范围 内 了 ， 到 目前 为 止 ， 基 于 帧 的 工作 方式 
几乎 应 用 于 所 有 岁 像 传感器 。 在 4. 6. 5 节 中 ， 对 于 异步 系统 扩充 了 基于 事件 的 视觉 
方法 。 


4.6.3 像素 级 ADC 
许多 COMS 成 像 仪 以 数字 形式 提供 数据 ， 这 意味 着 在 每 个 阵列 或 是 每 像素 列 
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上 ， 需 要 有 A-D 转换 器 。 随 着 半导体 技术 向 微型 化 的 趋势 发 展 ， 允 许 在 每 单元 中 
存在 更 多 的 设备 ， 并 且 把 ADC 植 人 成 像 仪 的 每 个 像素 中 ， 从 而 实现 数字 像素 处 理 
器 (DPS) ， 这 已 成 为 该 领域 的 发 展 方向 。 数 字 像素 传感器 并 不 会 与 传统 的 APS f 
素 在 填充 系数 或 是 传感器 分 辨 率 上 形成 竞争 〈 由 于 图 像 质 量 的 问题 ) 关系 ， 人 们 
设计 它 的 目的 是 为 了 服务 于 特殊 领域 ， 例 如 ， 高 速成 像 、 面 向 视频 的 应 用 以 及 机 器 
视觉 方面 。 

在 参考 文献 [60] 中 介绍 了 1bit 像素 级 A- D FEMME TH, CBS 
文献 [188] 和 参考 文献 [581] 中 介绍 了 最 早 的 关于 像素 级 A-D 转换 器 的 技术 ， 
在 参考 文献 [582] 和 参考 文献 [583] 中 介绍 了 甚 发展。 相应 的 技术 得 到 了 进 一 
步 发 展 ，Kleinfelder 等 人 在 参考 文献 [297] 提出 了 一 种 10kfps 像素 级 单 斜 率 转换 
成 像 仪 ， 它 具有 全 局 灰 度 计数 器 以 及 8bit 像素 存储 器 。 

亮度 信息 的 PWM 或 PEM 编码 是 各 种 像素 级 A-D 转换 器 的 基础 .%*”Y] 。 在 这 种 
条 件 下 像素 脉冲 不 会 直接 传送 到 片 外 而 是 将 它们 转换 为 数字 形式 并 且 存储 在 芯片 上 
直到 被 读 出 。 

对 于 PWM， 阵 列 中 所 有 像素 具有 共同 的 时 钟 ， 可 以 通过 像素 级 计数 器 来 测量 
脉冲 的 持续 时 间 (周期 )'””!。 在 参考 文献 ”| 中， 介绍 了 具有 全 局 灰 度 编码 计 
数 器 和 像素 级 数字 内 存 的 PWM 像素 级 A-D 转换 器 。Bermak 等 人 给 出 了 一 种 数 
字 像 素 传感器 阵列 ， 具 有 基于 PWM 的 A-D 转换 器 以 及 线性 化 的 1/x PWM 亮度 编 
码 。Xu 等 人 介绍 了 一 种 0.25pm 工艺 的 CMOS 互补 像素 结构 (CAPS), ， 可 以 在 
低 电压 下 工作 (1V) ， 并 且 采 用 了 PWM 编码 ，Kagawa 等 人 中 给 出 了 三 晶体 管 
PWM 像素 的 设计 。 

在 PFW 条 件 下 ， 按 给 定 的 周期 对 像素 脉冲 进行 计数 。 早 期 图 像 传感器 包含 一 
个 32 x32 的 PFM 像素 阵列 :5 ， 该 阵列 具有 片 外 脉冲 计数 功能 并 且 还 有 一 个 128 
像素 的 PFM 线性 传感器 7, Mellrath 等 人 中 提出 ， 在 每 个 像素 中 都 采用 光电 流 
控制 的 自由 采样 振荡 器 ， 以 此 实现 一 阶 卫 -A 变换 器 。Andoh 等 人 59 给 出 了 一 种 
64 x64 的 PFM 像素 阵列 ， 在 每 个 像素 中 包含 了 8bit 计数 器 以 及 智能 线性 连续 输出 
功能 。Wang £A 提出 了 一 种 带 移 位 寄存 计数 器 的 130dB 动态 范围 的 28 x 28 
PFM 传感器 ， 同 时 Boussaid 等 人 ! 刀 提出 了 一 种 可 伸缩 型 的 PFM 像素 结构 ， 该 结构 
带 有 8bit 像素 内 计数 器 /内 存 和 随机 访问 读 出 功能 。 在 参考 文献 [493] 中 给 出 了 
基于 PFM 的 64 x64 数字 传感器 原型 ， 具 有 Shit 像素 灰 度 编码 计数 器 /内 存 以 及 间 
BE (积分 时 间 ) 读 出 功能 。 


4.6.4 像素 级 数字 处 理 


再 次 得 益 于 半导体 工艺 特征 尺寸 的 减 小 以 及 像素 级 A-D 转换 所 取得 的 进展 ， 
最 近 发 展 目标 是 像素 级 数字 信号 处 理 。 在 最 先进 的 设备 中 ， 传 感 处 理 需 阵列 的 每 个 
像素 中 都 集成 了 可 编程 数字 信和 号 处 理 人 器。 类 似 于 模拟 和 神经 细胞 网 络 (CNN) 阵 
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列 处 理 结构 ， 这 种 方法 允许 大 规模 并 行 工 作 ， 并 且 提 供 高 帧 率 条 件 下 的 复杂 视觉 和 
图 像 处理 功 能 。 

Ishikawa 等 人 "| 提出 了 一 个 16 x 16 的 初级 SIMD 视觉 处 理 器 阵列 ， 该 阵列 每 
像素 有 512 个 数字 晶体 管 ， 同 时 还 有 20MHz 的 时 钟 频率 。 在 参考 文献 [270, 301] 
中 展示 了 一 种 为 实时 图 像 处 理 设 计 的 64 x 64 SIMD 视觉 传感器 阵列 。 

Dudek SEAT 提出 了 异步 ASPA 焦 平面 数字 处 理 器 阵列 。 

参考 文献 [335] 比较 了 模拟 和 数字 视觉 芯片 〈 带 有 可 编程 焦 平面 处 理 功 能 ) ， 
见 表 4.3。 


4.6.5 ”基于 事件 的 异步 视觉 


经 典 的 图 像 处 理 是 基于 图 像 传感器 按 帧 产生 的 数据 进行 运算 的 。 习 惯 上 ， 基 于 
时 钟 的 图 像 传感器 获得 场景 信息 可 能 要 采用 这 些 形式 : 逐 像 素 、 逐 行 / 列 或 其 他 形 
式 ， 如 并 行 像素 ， 但 一 定 是 在 某 种 帧 速率 下 对 时 间 进 行 量化 。 每 个 数据 帧 都 被 记 
录 、 传 送 且 以 某 种 方式 处 理 后 ， 携 带 着 所 有 像素 信息 ， 这 些 信 息 与 前 一 帧 或 前 几 帧 
发 生 的 变化 无 关 。 这 种 依靠 场景 动态 内 容 的 方法 很 明显 地 导致 了 图 像 数据 的 高 度 宛 
余 。 此 外 ， 每 一 像素 上 都 要 施加 相同 的 曝光 时 间 ， 使 得 对 景象 动态 范围 的 处 理 变 得 
很 困难 。 

与 基于 帧 的 图 像 感知 不 同 ， 异 步 方式 成 像 的 范例 ， 如 基于 事件 的 视觉 技术 ， 是 
以 像 人 类 视网膜 一 样 的 生物 视觉 系统 为 蓝本 的 。 生 物 视 觉 系 统 没 有 帧 的 概念 ， 视 网 
膜 是 以 异步 的 ， 大 量 并 行 的、 数据 驱 动 的 方式 输出 的 。 基 于 事件 的 传感器 ， 具 备 自 
计时 功能 ， 其 输出 数据 量 取决 于 目标 景物 的 动态 内 容 一 一 那些 未 受到 视觉 刺激 的 像 
素 不 会 产生 输出 。 与 传统 的 基于 帧 的 图 像 传感器 相 比 ， 基 于 事件 的 传感器 几乎 完全 
抑制 了 图 像 数 据 的 元 余 ， 并 且 降 低 了 对 处 理 功 率 、 内 存 、 传 输 带 宽 以 及 电源 供给 等 
多 方面 的 要 求 。 

基于 异步 地 址 事件 表示 (AER) 的 视觉 传感器 ， 其 输出 形式 是 数字 编码 地 址 ， 
在 像素 阵列 中 指定 * 、y 的 地 址 ， 通 过 异步 仲裁 数字 数据 总 线 进行 通信 。 事 件 是 由 
像素 局 部 生成 的 ， 意 味 着 像素 的 操作 是 自动 、 独 立 的 ， 并 且 能 够 决定 何 时 (通常 
是 在 本 地 增益 控制 之 后 ) 量化 视觉 信息 、 进 行 时 空 处 理 和 减少 元 余 。 

各 种 不 同 种 类 的 AER 视觉 传 感 需 在 过 去 的 几 年 中 相继 地 发 展 起 来 ， 其 中 包括 
以 下 七 种 : 

(D TTFS £i 3 p [ig 022211 ; 

@ 标准 CMOS 中 的 PFM pi 3 px (0777, ud Se AUI BA RE P] E TER OA F 
#0", 

© 空间 对 比 技术 :9 ; 

@ 时 序 对 比 技术 5 ; 

© PWM 成 像 ， 时 序 对 比 事件 发 生 条 件 下 的 读 出 技术 [2 ; 
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© 方向 选择 滤波 器 "1 ; 
CO 异形 器 件 ， 如 采用 多 像素 和 暗 激励 技术 的 小 上 成 像 仪 P1 。 


当前 ， Rus Rd AER 视觉 设备 是 时 空 对 比 动 态 视觉 处 理 器 
(DVS), (JH T. Delbruck 等 人 1535371 改 进 的 。 这 种 传感器 是 以 人 类 / 肴 椎 动 物 视 








MEERE, 同时 在 自动 像素 阵列 中 执行 本 地 相关 变化 检测 。 
等 人 “提出 了 这 个 设备 的 前 身 。 这 种 传感器 产生 的 数据 包含 了 场景 信息 的 变化 内 
容 (大 多 数 情 况 下 是 由 物体 运动 引起 的 )， 具 有 很 高 的 时 间 分 辨 率 。 因 为 输出 带宽 





Kramer 


自动 为 景物 的 动态 部 分 所 专用 ， 所 以 这 些 设备 特别 适合 于 包括 运动 检测 和 分 析 的 应 
用 。 基 准 电 平 (DC) 在 像素 中 被 丢弃 了 ， 因 此 传 感 带 数 据 中 没有 包含 强度 的 信息 。 


图 4. 


15 给 出 了 DVS 像素 的 范例 以 及 典型 的 信号 波形 。 该 像素 电路 包含 


“事件 开 ” 












“事件 关 ” 
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“握手 协议 ” 
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图 4.15 DVS 像素 原理 图 ， 感光 电压 V, 和 峰值 超时 电压 Vs 的 典型 波形 。 

















当 极 性 梯度 〈 朝 上 或 朝 下 ) 取决 于 信和 号 是 否 达到 阔 值 的 高 低 门限 (“ON 
或 “OFF” 事 件 ) 时 ， 变 化 率 按 事件 间隔 进行 编码 








个 具 
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有 共 源 反馈 (PD, M,, M,, M,) 功能 的 快速 对 数 感 光电 路 ， 一 个 能 高 精度 CA, 
C,, C) 放大 突变 的 差分 电路 ， 还 有 两 个 用 于 正 负 梯度 情况 的 共 源 比较 器 。 该 感 
光电 路 自动 控制 各 个 像素 增益 ， 利 用 对 数 响 应 的 方式 同一 时 间 快 速 响应 照明 变化 。 
通过 电容 耦合 ， 在 每 次 重建 工作 点 后 把 差分 电路 的 输出 置 于 复位 状态 ， 从 而 消除 连 
续 时 间 感 光 FPN。 可 变 增 益 放 大 器 是 由 调节 C,/ C, 电容 比 确定 的 。 借 助 于 差分 电路 
直流 清除 功能 且 光 感受 器 的 对 数 特性 ， 在 时 空 对 比 和 相关 量化 两 方面 ， 像 素 的 敏感 
度 高 于 像素 亮度 的 绝对 变化 。 

基于 时 空 对 比 的 DVS 像素 电路 ， 设 计 了 一 些 传感器 件 。 例 如 ， 低 、 中 分 辩 率 
阵列 传感器 ”>”” ， 用 于 高 速 工 业 视觉 的 带 有 片 内 时 间 戳 功能 的 线性 传感器 ， 
基于 微 测 技术 的 晶体 管 IR 传感器 59 ， 以 及 异步 无 宛 余 PWM 灰 度 成 像 QVGA 视觉 
传感器 OY 。 
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5.1 简介 


PEAR He IE di Me RR MJ 


在 第 4 章 视觉 传感器 技术 的 基础 上 ， 我 们 就 感光 器 、 像 素 和 信和 号 处 理 电路 给 出 
了 一 些 基 本 的 概念 。 本 章 我 们 将 从 视觉 传感器 的 架构 和 物理 结构 方面 进行 探讨 。 也 
将 展示 典型 图 像 传感器 的 平面 设计 及 其 独特 的 几何 模型 ， 在 过 去 的 20 年 里 这 些 已 
经 变 成 了 现实 。 除 此 之 外 ， 本 章 还 要 讲 到 像素 读 出 指令 及 其 接口 电路 。 最 后 我 们 将 


对 片上 视觉 系统 做 一 个 简要 的 说 明 。 


5.2 ”图像 传感器 的 构造 和 布局 


传感器 的 物理 结构 及 其 布局 一 般 是 有 规则 的 集中 式 阵列 ,行列 电路 置 于 其 一 侧 


或 两 侧 。 图 5.1 给 出 了 典型 的 
图 像 传感器 的 显 微 图 及 其 平面 
布局 的 原理 。 面 积 最 大 且 最 重 
要 的 部 分 是 光 感 知 阵列 。 这 个 
阵列 由 光 感 知 元 件 ( 图 素 或 像 
素 ) 构成 。 相 对 大 的 传感器 阵 
列 来 说 ， 图 像 传 感 阵列 将 占 到 
整个 芯片 的 90% 以 上 。 像 素 
把 光 强 度 转 变 成 电压 、 电 路 或 
电荷 。 将 会 在 5.3 节 中 列 出 像 
素 阵列 的 特性 。 

连接 到 像素 阵列 的 行列 模 
块 构成 了 外 围 电 路 ， 用 于 接 
收 、 转 换 和 缓冲 由 像素 产生 的 
信号 ， 或 产生 控制 配置 像素 的 
信和 号。 对 于 二 维 的 传感器 阵列 
来 说 ， 不 可 能 把 每 一 个 像素 产 
生 的 信号 直接 传送 到 阵列 周 























边 。 这 样 ， 复 用 技术 就 被 用 于 阵列 的 控制 和 读 出 。5. 4 节 中 将 会 介绍 和 讨论 * 
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图 5.1 典型 成 像 世 片 的 平面 布局 
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读 出 策略 。 

为 了 控制 和 读 出 信号 ， 像 素 也 需要 电源 和 偏 置 电路 来 优化 它们 的 性 能 。 在 芯片 
上 ， 像 素数 据 通常 转换 为 数字 图 像 数 据 。 图 像 数 据 可 以 传输 到 片 外 或 者 在 片上 得 到 
处 理 。 在 这 两 种 方式 下 ， 图 像 数 据 在 专用 数据 总 线 上 传输 ， 并 使 用 专门 的 接口 模 
块 。5. 5 节 介 绍 了 成 像 带 上 图 像 数 据 的 转换 和 传输 中 比较 普遍 的 一 些 方法 。 

在 成 像 芯 片 的 物理 范畴 内 ， 焊 垫 框架 用 于 实现 必 片 和 外 界 的 连接 。 焊 接 在 这 些 
焊 垫 上 的 细小 键 合 引线 与 忆 乒 封装 引 脚 进行 电气 连接 ， 进 一 步 把 成 像 世 片 焊接 到 智 
能 摄像 机 的 印 制 电路 板 上 。 焊 垫 配置 在 L/O 缓冲 区 ， 并且 含有 一 些 特殊 的 电路 ， 用 
来 保护 芯片 免 于 生产 加 工 过 程 中 出 现 的 电气 过 应 力 和 静电 放电 。 焊 垫 进一步 连接 到 
必 片 的 外 于 模块 ， 同 时 也 连接 到 布置 在 芯片 周边 的 电源 总 线 。 


5.3 ”像素 阵列 


像素 阵列 是 图 像 传 感 单元 有 规律 的 集成 ， 如 同 每 个 传感器 的 心脏 。 阵 列 最 常见 
的 几何 分 布 是 像素 之 间 固 定 距 离 的 长 方形 和 矩阵。 从 工艺 方面 来 看 ， 世 片 的 设计 支持 
此 布局 ， 并 且 图 像 处 理 技术 也 依靠 着 这 种 长 方形 的 布局 。 否 则 在 选择 应 用 系统 时 ， 
图 像 处 理 算法 上 很 多 精确 的 操作 会 变 得 异常 复杂 。 
5.3.1 重要 的 阵列 参数 

图 5.2 所 示 为 长 方形 4 x4 像素 矩阵 的 简 图 。 








(6.4mm) 











| (Thin) 


成 像 器 类 型 摄像 管 直径 /im 
图 5.2 4x4 像素 阵 列 简 图 (包括 部 分 重要 参数 ) 及 成 像 器 样 


在 垂直 和 水 平方 向 上 ， 像 素 排 列 的 间距 为 py 和 p,， 称 之 为 “像素 尺度 ”。 通 
常 垂 直 和 水 平 的 尺度 是 相等 的 。 像 素 尺 度 不 等 的 图 像 处 理 器 是 不 常见 的 。 像 素面 积 


x: 
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Ax =paxpv， 包 括 图 像 传 感 区 域 4,,。 像 素 区 域 的 其 余部 分 是 信号 预 处 理 及 外 围 通 
信 电 路 ， 通 过 水 平和 垂直 信号 线路 与 外 围 进行 通信 。 
电路 需要 的 空间 越 多 ， 填 充 系数 就 越 小 。 填 充 系 数 是 感光 区 域 4 和 像素 区 域 
Ax 7 py * Pw 的 比值 ， 即 44/4,. 的 百分比 。 在 CCD 像素 中 无 需 更 多 额外 的 电路 ， 这 
个 比值 将 会 超过 90% 。 内 置 焦 平 面 预 处 理 的 CMOS APS 成 像 芯片 的 填充 系数 仅 
为 10% 。 
宽度 为 丈 、 高 度 为 万 的 抢 阵 维 数 可 以 由 像素 Nu 和 Ny( 通 常 称 为 图 像 传 感 器 
的 分 辩 率 ) 以 及 像素 水 平和 垂直 方向 间距 pu 和 pv 来 计算 : 
H=py * Ny 
W=py * Ny (5.1) 
已 知 成 像 阵列 的 尺寸 对 于 为 成 像 传感器 选择 正确 的 光学 元 件 很 重要 。 给 定 成 像 
传感器 的 型 号 或 以 in 为 单位 的 尺寸 ， 类 似 过 去 用 于 电视 录像 的 摄像 管 直径 ， 据 此 
来 定制 光学 元 件 。 表 5. 1 给 出 了 常见 的 尺寸 及 其 对 应 阵列 的 宽度 WE 五 ， 由 此 
选择 某 一 尺寸 的 光学 元 件 。 
表 5.1 成 像 传感器 型 号 对 应 有 效 的 像素 阵列 的 尺寸 


























W/mm H/mm 
1/4in 3.2 2.4 
1/3in 4.8 3.6 
1/2in 6.4 4.8 
2/3in 8.8 6.6 
lin 12.8 9.6 








5.3.2 线形 传感器 


在 线形 传感器 中 像素 的 排列 是 直线 的 ， 这 种 传感器 的 优点 在 于 对 成 像 吕 视野 内 
不 停 移动 的 物体 进行 快速 成 像 ， 且 数据 率 相 对 较 低 ， 例 如 用 于 传输 带 成 像 。 它 由 单 
行 〈 或 多 行 ) 像素 组 成 ， 而 不 是 由 像素 阵列 或 矩阵 组 成 。 片 上 读 出 电路 和 连接 像 
素 信 号 线 的 布局 相对 随意 些 。 如 今 线 传 感 咒 是 最 快 的 成 像 器 之 一 ， 读 出 频率 可 
达 100kHz, 


5.3.3 图 像 传感器 的 其 他 几何 结构 


图 像 传 感 需 也 有 非 矩 形 排列 的 几何 形式 。 这 些 几 何 排列 形式 用 于 特定 类 型 的 图 
像 处理 算 法 。 

例如 ， 当 算法 要 求 紧邻 像素 的 间距 相等 时 ， 六 边 形 或 蜂 帘 结 构 能 用 来 优化 图 像 
平面 的 采样 。 和 矩形 像素 格子 仅 能 表示 出 水 平和 垂直 两 个 方向 。 六 边 形 像素 格子 有 夹 
角 为 60° 的 三 个 主轴 。 还 有 其 他 几何 形式 的 像素 格子 ， 如 三 角形 ， 但 它们 是 复杂 
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的 ， 且 对 于 一 般 图 像 处 理应 用 没有 多 少 优 势 。 
如 图 5.3 所 示 ， 假 定 对 任 一 种 像素 格子 的 几何 形式 ， 单 位 面积 上 的 像素 密度 均 
一 样 ， 那 么 容易 求 得 与 矩形 像素 格子 有 关 的 六 边 形 像素 格子 的 像素 间距 ， 表 达 为 


de aesti osos (5.2) 
B 


sh 和 sr 131 EN IG PUI RR HF OL FRR EIE, 
六 边 形 像素 格子 


















































图 5.3 格子 结构 





图 5.4 中 体现 了 每 种 格子 的 空间 频 域 ， 又 称 “ 倒 唱 格 ”。 阴 影 部 分 表示 一 种 格 
子 结构 的 胞 腔 ， 某 像素 中 心 与 其 他 像素 中 心 之 间 的 垂直 平分 线形 成 了 半 平 面 ， 胞 腔 
是 所 有 半 平 面 间 的 公共 区 域 ， 其 中 包括 了 感光 像素 单元 。 在 不 产生 频谱 混 炙 的 情况 
下 ， 胞 腔 实 际 上 是 空间 频率 响应 所 能 达到 的 公共 区 域 。 假 定 两 种 格子 形状 的 像素 密 
度 一 样 ， 在 水 平和 垂直 方向 上 ， 像 素 到 它 胞 腔 边缘 的 最 小 距离 为 


Vr, = Vr, 2 d- 20.5 È 矩形 像素 格子 





























7 2sr 
vh = -=| ~0591 六 边 形 像素 格子 
V3sh — V12sr sr 
Vh, = 2 70. 667 EN (5.3) 
? /3sh sr 


传统 的 图 像 传 感 顺 中 ， 图 像 检测 器 的 空间 分 布 形 式 是 规则 的 周期 性 模板 。 另 一 
类 图 像 传感器 把 图 像 从 二 维 笛 卡 尔 坐标 中 映射 到 其 他 坐标 中 ， 如 极 坐标 和 线性 坐 
标 。 这 种 映射 有 利于 图 像 处 理 运 算 ， 例 如 比例 缩放 和 旋转 不 变性 。 四 形 图 像 传 感 右 
是 一 类 空间 布局 变化 的 探测 器 ， 在 中 央 区 域 像素 高 度 集中 ， 在 周边 区 域 像素 密度 相 
对 较 低 。 最 常见 的 凹 形 传 感 吕 如 5.5 所 示 ， 图 5. Sa 中 线性 极 坐标 传 感 噩 存在 映射 
如 下 : 


ko 


摄像 机 


py 
zu 
ce 
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矩形 像素 格子 六 边 形 像素 格子 





Bshl3sh sh Bsh sh (3sh (3sh Bsh 





图 5.4 六 边 形 和 和 矩形 像素 格子 的 倒 唱 格 
( y 


0- ony x] 


p-x +y 


(5.4) 





c) 


a) 

图 5.5 线性 极 坐标 传感器 、 圆 极 坐标 传感器 对 数 极 坐 标 ， 中 心 为 笛 卡 儿 坐标 
a) 线性 极 坐标 传感器 b) 圆 极 坐标 传感器 

c) 对 数 极 坐标 ， 中 心 为 笛 卡 儿 坐 标 



































在 新 坐标 中 ， 图 像 旋转 可 以 通过 0 轴 上 简单 的 移 位 操作 来 实现 。 这 个 传感器 中 
所 有 的 像素 都 有 相同 的 尺寸 。 在 特殊 情况 下 ， 由 于 像素 尺寸 是 限定 的 ， 中 部 圆圈 内 


的 像素 比 外 围 圆 峰 内 的 像素 少 。 
图 5. 5b 中 极 坐标 传感器 的 映射 如 下 : 
| 


0 = arctan to 


p-log Vx +y (5.5) 
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在 这 种 结构 中 ， 图 像 的 旋转 和 缩放 可 以 通过 9 轴 和 p 轴 上 的 移 位 来 实现 。 并 
且 ， 物 理 尺寸 限制 了 中 央 区 域 中 像素 的 优化 布置 。 第 三 个 传感器 的 中 央 是 规则 、 高 
密度 的 像素 ， 其 外 于 是 对 数 极 坐标 结构 。 

在 图 像 处 理 中 ， 由 于 它们 的 像素 不 均匀 的 分 布 ， 这 种 结构 比 传统 的 成 像 方式 显 
得 更 有 用 处 。 在 特定 的 图 像 处 理应 用 中 ， 如 图 像 追踪 ， 传 感 器 外 围 的 稀 玻 像素 将 产 
生 很 宽 的 视 场 。 当 外 围 区域 探 测 到 目标 时 ,传感器 便 定向 到 该 目标 ， 从 而 利用 中 央 
区 域 获得 更 多 的 图 像 细 节 ， 在 参考 文献 【545，569，414，549] 中 可 看 到 这 些 类 
型 的 传感器 。 


5.3.4 彩色 模板 和 微 镜 


根据 不 同 的 应 用 要 求 ， 彩 色 图 像 传 感 絮 需要 为 环境 产生 更 多 的 信息 。 例 如 ， 传 
统 的 基于 形状 的 图 像 处理 ， 对 象 仅 为 灰 度 图 像 ， 而 很 大 一 部 分 人 脸 识别 算法 依赖 于 
皮肤 颜色 ， 用 于 脸 部 手 部 的 分 段 和 识别 。 

5.3.4.1 颜色 识别 

几乎 所 有 可 见 光 谱 传 感 器 都 是 以 硅 工 艺 为 基础 制造 的 。 这 些 图 像 传 感 融 的 光谱 
响应 取决 于 很 多 因素 ， 最 重要 的 是 半导体 的 摊 杂 密度 和 光敏 二 极 管 的 摊 杂 面 。 硅 传 
感 器 典型 的 光谱 感应 曲线 如 图 5.6 所 示 。 

理论 上 ， 为 了 正确 识别 颜色 ， 光 在 输入 传感器 前 需要 经 过 一 个 颜色 带 通 滤波 
器 ， 其 只 允许 所 需 颜 色 的 光 通 过 。 这 个 滤波 器 是 单位 脉冲 响应 函数 。 而 为 了 能 识别 
可 见 光 谱 内 所 有 的 颜色 ， 应 当 使 用 许多 理想 的 滤波 器 来 包含 所 有 的 光谱 ， 但 这 是 不 
切实 际 的 。 

在 大 多 数 的 彩色 图 像 传 感 器 中 只 用 到 了 三 种 滤波 器 ， 主 要 集中 在 了 蓝 色 、 绿 色 
和 红色 三 个 波长 上 。 这 些 滤波 器 没有 平坦 的 光谱 响应 ， 很 不 理想 且 相 互 之 间 严 重 交 
全 。 没 有 滤波 器 的 交 生 ， 也 不 可 能 从 每 个 像素 点 来 重 构 彩 色 信 息 。 

这 里 介绍 三 种 方法 来 实现 颜色 滤波 器 ， 如 图 5.7 所 示 。 第 一 种 方法 是 使 用 一 个 
单 色 传感器 阵列 和 一 个 旋转 的 颜色 轮 一 起 工作 。 运 用 这 种 技术 ， 基 于 不 同时 间 段 获 
得 的 三 个 单 色 样 本 可 以 构造 一 帧 彩色 图 像 。 这 种 方法 的 优点 在 于 能 使 用 精确 的 单 色 
光 滤 波 器 ， 且 只 使 用 一 个 单 色 传 感 敌阵 。 缺 点 在 于 时 域 的 颜色 失真 ， 图 像 捕 捉 次 数 
和 带宽 将 高 至 三 倍 ， 以 及 高 速 旋转 轮 涉及 的 机 械 问 题 。 

第 二 种 方法 是 采用 三 个 图 像 传 感 器 ， 每 一 个 传感器 前 放置 不 同 颜色 的 滤波 器 。 
这 种 方法 的 优点 同样 是 使 用 精确 的 滤波 器 ， 没 有 可 移动 的 部 件 ， 能 同时 捕获 三 种 颜 
色 。 和 缺点 是 传感器 数量 高 达 三 个 并 且 存 在 相互 之 间 的 机 械 校准 问题 。 现 今 ， 高 端 摄 
像 机 都 采用 这 项 技术 。 

第 三 种 方法 运用 最 为 广泛 ， 采 用 了 彩色 马赛 克 模 板 。 传 感 器 像素 上 面 按照 一 定 
规则 有 覆盖 了 不 同 颜色 的 光学 滤波 器 。 最 常见 的 是 5. 7e 所 示 的 贝尔 马赛 克 模 板 。 这 
种 方法 的 最 大 优点 是 高 度 集成 性 。 但 是 ， 在 不 同位 置 对 不 同 颜色 的 图 像 进行 空间 采 
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c) d) 
Kd 5.6 二 极 管 的 光谱 响应 、 用 理想 滤波 右 来 检测 单 色光 、 


三 个 颜色 小 波 器 的 特性 、 彩 色 滤波 器 的 响应 
a) 硅 二 极 管 的 光谱 响应 





b) 用 理想 滤波 器 来 检测 单 色 光 








样 时 ， 图 像 中 会 
种 颜色 交界 的 地 方 。 
因为 每 个 颜色 通道 








c) 三 个 颜色 滤波 器 的 特性 


d) 彩色 滤波 器 的 响应 


出 现 人 工 痕迹 ， 


特别 是 在 目标 图 像 边缘 附近 的 断 续 之 处 ， 或 者 在 两 


首 的 输出 信号 取决 于 颜色 滤波 带 特 性 ， 因 此 必须 采取 白 平 衡 和 


颜色 矫正 技术 。 最 简单 的 颜色 矫正 技术 是 调整 每 个 颜色 的 增益 。 对 于 彩色 马赛 克 模 


板 ， 由 于 空间 采样 后 的 彩色 不 同 ， 
益 ， 考 虑 图 像 的 边界 问题 。 
5.3.4.2 fuse 


许多 复杂 的 技术 需要 用 插值 颜色 ， 来 调节 变 增 


随 着 CMOS 传感器 像素 尺寸 的 缩小 和 像素 填充 系数 的 降低 ， 补 偿 其 相关 的 损失 








越 来 越 重要 ( 见 图 5. 8)。 


变 得 


微 透镜 的 作用 是 改变 光 的 路 线 使 它 到 达 像素 中 的 有 效 区 域 。 当 然 光 在 非 有 效 区 





域 会 有 损失 ， 或 者 镜面 反射 也 会 造成 损失 。 微 透镜 的 有 效 增益 是 1. 0 ~3.0， 它 取 
决 于 波长 、 像 素 太 十 和 像素 的 横 切 面 。 尽 管 看 起 来 并 不 是 很 有 意义 ， 但 是 该 增益 能 





增强 输入 信号 以 及 信和 噪 比 。 





pru. 彩色 光学 滤波 器 、、 
传感器 
入 射 光 
Pd 









图 像 传感器 


D) 





图 像 传感器 


9) 


图 5.7 用 一 个 色 轮 、 三 个 不 同 的 传 感 顺 和 三 个 不 同 的 颜色 滤波 器 、 彩 色 马 赛 克 模 板 
a) 用 一 个 色 轮 b) 三 个 不 同 的 传感器 和 三 个 不 同 的 颜色 滤波 器 c) 彩色 马赛 克 模 板 


输入 光 








输入 光 
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光敏 二 极 管 


光敏 二 极 管 
a) b) 











图 5.8 填充 因素 导致 输入 光 的 损失 、 使 用 微 透镜 把 光线 定向 到 有 效 传 感 区 域 
a) 填充 因素 导致 输入 光 的 损失 b) 使 用 微 透镜 把 光线 定向 到 有 效 传 感 区 域 
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5.4 像素 显示 


在 几乎 所 有 的 图 像 传感器 中 ， 像 素 把 光 能 转化 成 电荷 ， 然 后 电荷 被 转 存 后 转化 
成 一 定 的 电压 ， 最 后 再 被 读 出 来 。 读 出 的 方式 主要 取决 于 系统 的 需求 ， 并 且 主 要 由 
诸如 速度 、 噪 声 以 及 能 量 的 损耗 这 些 因素 所 决定 。 


5.4.1 电荷 的 读 出 (CCD) 


电荷 耦合 装置 (CCD) 是 一 个 基于 电荷 的 设备 。 像 素 中 读 出 电荷 值 的 唯一 方 
式 就 是 从 传 感 元 件 的 行列 中 转移 出 像素 中 的 电荷 。 

CCD 在 势 阱 中 产生 电荷 ， 把 电压 应 用 到 MOS 电容 结构 的 门 上 面 就 产生 了 这 种 
ABE, Hg 5.9 说 明了 这 个 概念 。 为 了 正常 工作 ， 应 该 合理 地 安排 CCD 像素 上 的 电 
压 幅度 和 时 序 。 由 于 CCD 高 度 优化 结构 ， 使 得 其 余 的 电路 不 能 在 相同 的 芯片 上 被 
集成 ， 因 而 CCD 需要 另外 的 芯片 分 别 进行 控制 和 读 出 。 


d D, d, D, 四 CA 











到 5.9 CCD WTHR, TJE HEIL Sat a nb] E ag MM TA BE eB S — 1 3E 


CCD 读 出 的 第 一 步 就 是 把 电荷 从 阵列 中 转移 到 边缘 。 这 里 有 三 种 图 像 传感器 
结构 : 行 间 转 移 、 帧 转移 以 及 全 转移 ， 如 网 5. 10 所 示 。 












































































































































图 5.10 行 间 转 移 、 帧 转移 、 全 帧 CCD 结构 
a) 行 间 转移 b) 帧 转移 c) 全 帧 CCD 结构 
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在 行 间 转 移 CCD 中 ， 阵 列 中 的 一 行 电荷 被 同时 移 到 底 端 的 水 平 电荷 转移 行 ， 
然后 弟 行 移出 。 如 果 读 出 速度 相对 较 慢 或 是 有 高 强度 的 输入 光 ， 图 像 就 会 变 得 模糊 
不 清 ， 因 为 图 像 读 出 时 电荷 仍 在 收集 。 

帧 转移 CCD 中 ， 曝 光 时 ， 光 电 电 和 荷 在 电荷 收集 单元 中 积累 ( 见 图 5. 10b 中 的 
白色 部 分 ) 。 读 出 时 ， 电 荷 被 传送 到 电 和 荷 转移 势 阱 〈 见 图 5. 10b 中 灰色 部 分 ) 。 其 
余 过 程 类 似 于 行 间 转移 CCD。 电 和 荷 转移 阱 被 不 透明 层 履 盖 以 避免 光照 。 

目 然 地 ， 帧 转移 CCD 的 填充 因素 就 是 全 帧 转移 CCD 的 一 半 。 全 帧 CCD rp, d 
个 阵列 转移 到 帧 存储 阵列 ， 大 小 就 和 图 像 阵 列 一 样 。 帧 存储 阵列 的 读 出 又 类 似 于 行 
间 转 移 CCD。 全 帧 CCD 的 主要 优点 是 图 像 阵 列 中 的 填充 因素 没有 减少 。 同 时 也 证 
明 ， 这 是 从 图 像 阵 列 中 移出 速度 相对 快 的 图 像 转移 方式 ， 而 且 不 会 出 现行 间 转 移 
CCD 情况 下 的 图 像 模糊 不 清 。 

CCD 读 出 的 下 一 步 就 是 电荷 转 为 电压 ， 然 后 发 送 到 片 外 进行 A-D 转换 。 实 现 
这 个 过 程 的 电路 如 图 5. 11 所 示 。 在 这 个 电路 中 ， 水 平 转移 絮 将 势 阱 转移 来 的 电 共 
发 送 到 传 感 节 点 ， 此 节点 与 晶体 管 的 门 连接 。 门 上 的 最 终 电压 由 源 跟随 电路 缓冲 后 
BILE Hb 








图 5.11 CCD 读 出 电路 





采用 此 类 技术 ， 每 帧 的 整个 读 出 时 间 基 本 上 都 是 相同 的 。 由 于 电 和 荷 的 读 出 方式 
只 能 是 在 水 平 或 垂直 方向 上 从 一 个 单元 转移 到 下 一 个 单元 ， 因 此 不 可 能 随机 访问 某 
一 像素 或 者 图 像 中 的 某 一 区 域 。 


5.4.2 CMOS 图 像 传感器 的 读 出 


相对 CCD 而 言 ，CMOS 图 像 传感器 中 数据 读 出 结构 和 机 制 大 不 相同 ， 从 像素 
电路 到 列 电路 ， 再 到 ADC 结构 、 片 上 图 像 处 理 以 及 图 像 /信息 的 输出 ， 各 个 环节 均 
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有 所 不 同 。 

这 里 介绍 各 个 环节 上 的 常用 技术 ,像素 级 的 读 出 电路 早 在 第 4 章 就 讨论 过 了 。 

5.4.2.1 主动 和 被 动 读 出 

在 图 像 传感器 和 其 他 设备 之 间 传 输 数 据 时 ， 有 两 种 截然 不 同 的 方式 ， 被 动 模式 
和 主动 模式 。 被 动 模 式 下 图 像 传感器 在 已 知 的 速率 下 产生 和 发 送 数据 ， 不 过 常常 受 
到 带宽 和 能 量 等 参数 的 限制 。 主 动 模 式 中 ， 图 像 传感器 主动 从 芯片 中 获得 信息 。 主 
动 模式 最 显著 的 优势 是 带宽 和 能 量 的 高 效 管理 。 在 许多 应 用 中 ， 主 动 模式 减少 了 输 
入 系统 的 元 余 ， 从 而 提高 了 处 理性 能 。 


5.4.3 阵列 的 读 出 


图 像 阵列 的 像素 值 可 以 采用 以 下 模式 中 的 一 种 读 出 。 

1. 解码 器 扫描 

在 这 种 方法 中 ， 每 个 像素 单元 由 和 了 轴 上 的 两 个 解码 器 选择 ， 解 码 器 用 
条 选择 线 ， 可 输出 2" 个 像素 值 。 这 种 方法 是 随机 读 出 的 唯一 选择 方法 。 

2. 移 位 寄存 器 扫描 

这 种 方法 中 ， 通 过 移 位 寄存 器 转移 “1”， 顺 序 地 选择 行列 。 这 种 方法 能 同时 选中 
多 行 或 多 列 。 如 果 像 素 单 元 输出 的 是 电流 ， 那 么 就 能 得 到 所 选择 单元 的 输出 总 和 。 参 考 
文献 [201] 和 参考 文献 [308] 的 视觉 芯片 上 使 用 的 就 是 这 种 方法 。 与 解码 器 方法 相 
比 ， 这 种 方法 的 优点 是 仅 需 较 少 的 输入 线 就 可 以 控制 移 位 寄存 器 工作 ， 尽 管 当 控 制 逻辑 
集成 到 同一 的 芯片 上 时 ， 这 个 优点 将 不 再 显得 重要 。 图 5. 12 说 明了 这 种 方法 。 
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图 5.12 ”基于 解码 器 的 随机 存 取 扫描 、 基 于 移 位 寄存 器 的 序列 扫描 和 
每 次 用 移 位 寄存 器 扫描 选择 多 个 单元 
a) 基于 解码 器 的 随机 存 取 扫 描 b) 基于 移 位 寄存 器 的 序列 扫描 c) 每 次 用 移 位 寄存 器 扫描 选择 多 个 单元 
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3. 同步 寻 址 事件 代理 (SAER) 

在 传统 的 图 像 传 感 器 中 ， 每 个 像素 的 输出 都 需要 被 读 出 ， 即 使 在 许多 情况 下 只 
有 其 中 一 小 部 分 像素 用 来 表示 一 个 空间 或 时 间 内 发 生 的 事件 。 如 果 一 个 像素 触发 了 
某 一 事件 的 发 生 ， 而 只 有 与 被 触发 标志 相关 的 那些 像素 需要 被 读 了 到， 将 大 幅 减少 了 
获取 数据 的 时 间 ， 进 一 步 去 处 理 那些 有 意义 的 像素 及 其 地 址 。 这 种 方法 可 以 应 用 于 
一 些 事件 检测 器 和 微型 智能 传感器 中 。 

在 SAER 中 ， 每 个 像素 需要 一 些 额 外 的 电路 去 检测 事件 和 激活 标志 信号 。 用 于 
读 出 的 多 路 转换 器 应 该 能 检测 被 触发 的 事件 标志 并 忽略 与 发 生 事件 无 关 的 其 余 
像素 。 

4. 异步 寻 址 事件 代理 (AARE) 

TE SAER 中 ， 利 用 读 取 期 间 来 检测 事件 。 在 AAER 中 ， 当 一 个 事件 在 某 一 像素 
发 生 时 ， 那 个 像素 的 值 会 被 立即 读 取 。 在 一 个 真实 事件 中 ， 许 多 像素 可 能 被 同时 触 
发 ， 所 以 仲裁 电路 每 次 只 允许 一 个 像素 单元 被 读 出 。 基 本 的 仲裁 电路 检测 多 个 像素 
单元 的 确认 和 请 求 信号 ， 且 只 选择 其 中 之 一 。 选 择 的 像素 单元 被 读 出 后 ， 再 选择 其 
余 的 像素 单元 。 二 进 制 树 形式 的 仲裁 电路 可 以 保证 只 有 一 个 单元 被 选择 。 

AAER 已 经 应 用 在 了 硅 片 听觉 处 理 器 ”上 ， 同 时 也 被 应 用 在 一 维 或 者 二 维 阵 
列 中 ， 包 括 智能 图 像 传感器 。 在 这 种 方法 的 简化 版 中 ， 模 拟 信号 的 值 用 脉冲 模式 信 
号 来 表示 。 因 而 每 一 脉冲 触发 一 个 事件 。 在 这 个 表示 形式 中 ， 虽 然 一 个 脉冲 承载 的 
重要 信息 是 地 址 (阵列 中 的 位 置 ) 和 事件 发 生 时 间 ， 但 只 有 地 址 需要 传送 。 然 而 ， 
为 了 防止 脉冲 瞬时 信息 的 缺失 ，AER 电路 速度 应 该 比 事件 发 生 的 速率 更 快 。 

5. 多 通道 读 出 

对 于 以 上 方法 ， 采 用 多 倍 输出 线 将 会 增加 传输 带宽 。 由 于 地 址 线 不 需要 跟随 数 
据 一 起 离 片 发 送 ， 所 以 这 种 做 法 对 于 两 种 法 方法 显得 更 为 经 济 。 对 带 有 模拟 输出 的 
芯片 来 说 ， 多 信道 读 取 也 更 为 经 济 ， 因 为 每 个 通道 输出 单 端 信号 只 需要 一 根 线 或 者 
输出 差分 信号 需要 两 根 线 。 

多 数 图 像 传 感 右 需要 随机 访问 一 些 像素 或 区 域 。 在 没有 和 额外 代价 的 情况 下 ， 基 
于 解码 器 的 扫描 方式 提供 了 这 种 功能 ， 而 基于 移 位 寄存 器 的 扫描 方式 则 需要 给 控制 
逻辑 做 一 些 修 正 才能 提供 随机 访问 功能 。 对 于 SAER 和 AAER， 系 统 无 法 控制 哪些 
像素 或 区 域 被 读 出 ， 因 为 被 访问 的 像素 位 置 只 取决 于 它们 是 和 否 被 激活 。 

对 大 多 数 像素 激活 型 的 图 像 传 感 器 来 说 ， 真 正 的 随机 访问 机 制 是 不 可 行 的 。 因 
为 一 行 像素 被 读 出 后 ， 经 常会 复位 该 行 中 所 有 的 像素 ， 因 而 一 旦 一 行 被 读 取 后 ， 它 
的 内 容 就 会 被 擦 除 ， 以 后 就 不 可 能 再 读 取 到 那 行 的 像素 了 。 

在 图 像 传感器 阵列 的 某 一 小 区 域 中 加 窗口 是 其 另 一 特性 ， 和 常常 应 用 在 跟踪 系统 
中 。 解 码 器 扫描 方法 在 本 质 上 支持 这 种 特性 。 只 有 观察 到 地 址 在 指定 区 域内 的 输出 
数据 时 ， 事 件 寻 址 方法 才 支 持 这 种 特性 。 如 果 和 忽略 指定 窗口 区 域 之 外 的 事件 ， 事件 
寻 址 方法 也 可 以 实现 加 窗口 的 特性 。 
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5.5 图 像 接口 


图 像 传感器 数据 通过 图 像 总 线 被 传送 。 图 像 传 感 器 的 接口 总 线 主要 分 为 模拟 和 数 
字 ， 如 图 5. 13 所 示 。 在 模拟 接口 上 ， 数 据 输出 是 以 模拟 形式 出 现 的 。 


在 图 像 传感器 与 其 他 芯片 〈 比 如 岁 像 处 理 顺 或 系统 处 理 咒 ) 分 离 的 系统 中 ， 














图 5. 13 模拟 接口 、 并 行 数字 接口 、 模 拟 和 数字 的 典型 信号 




















a) 模拟 接口 b) 并 行 数字 接口 c) 模拟 和 数字 的 典型 信号 


对 于 模拟 视频 接口 ， 数 据 中 包括 水 平和 垂直 同步 信号 ， 有 助 于 在 光栅 扫描 中 识 
别 一 帧 的 开始 和 一 行 的 开始 。 在 接收 端 ， 首 先 必须 识别 帧 和 行 ， 然 后 再 进行 模拟 信 
号 采样 ， 转 化 为 数字 格式 。 在 一 个 模拟 接口 中 ， 必 须知 道 像 素数 和 帧 率 ， 才 能 对 每 
行 的 模拟 信号 采样 ， 以 获得 正确 数量 的 水 平 像素 。 

当 图 像 传感器 和 A- D 转换 器 及 控制 逻辑 集成 在 一 起 时 ， 图 像 数 据 在 数字 图 像 
传感器 的 总 线 上 输出 。 水 平方 向 和 垂直 方向 的 同步 信号 以 并 行 方式 提供 有 效 的 图 像 
数据 标记 。 在 接收 端 ， 图 像 能 被 无 失真 地 重新 构建 。 尽 管 并 行 数据 总 线 适 合 于 小 型 
的 图 像 阵列 ， 但 是 其 数据 带宽 制约 了 大 型 图 像 阵列 的 数据 传输 。 系 统 级 问题 ， 如 信 
号 完整 性 和 I/O 能 量 消耗 ， 限 制 了 图 像 传输 的 可 达 速 率 。 

随 着 器 件 集成 技术 的 改进 ， 出 现 了 一 系列 新 的 图 像 传感器 接口 标准 ， 减 少 了 引 
脚 数 和 能 量 ， 简 化 了 系统 级 的 接口 。 例 如 ， 图 像 传 感 器 的 移动 工业 处 理 接 口 标准 
MIPI- CSI2 ， 旨 在 解决 图 像 传感器 的 移动 应 用 接口 问题 。 物 理 层 标准 MIPI- CSI2 由 
两 对 或 两 对 以 上 的 LDVS (低压 差分 接口 ) 子 接口 组 成 。 图 像 和 控制 数据 经 封装 后 
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传输 。 传 输 协 议 是 相对 复杂 的 ， 在 发 送 端 和 接收 端 均 需 要 兼容 该 协议 。4 根 数据 线 
的 MIPI- CSI2 接口 的 传输 速率 是 4Gbit/s。 


5.6 片上 视觉 系统 





许多 图 像 传感器 有 不 同 程度 的 图 像 处 理 能 力 ， 如 颜色 矫正 和 图 像 压 缩 。 随 着 专 
门 的 图 像 传 感 器 工艺 引入 到 现在 的 工艺 中 (如 0.13pm)， 使 复杂 的 片上 视觉 系统 
(SoC) 设计 成 为 了 可 能 ， 这 里 图 像 传感器 和 处 理 器 以 及 专用 图 像 处 理 硬 件 集成 在 
一 起 。 虽 然 SoC 的 设计 开发 消耗 的 费用 和 时 间 都 很 高 ， 但 是 它 在 能 耗 和 性 能 上 有 很 
大 的 改进 ， 在 便携 式 智能 摄像 机 应 用 中 非常 重要 。 在 成 像 的 SoC 系统 中 ， 把 图 像 传 
感 器 看 作 一 个 卫 〈 知 识 产权 ) 模块 ， 类似 于 其 他 的 了 P 块 ， 比 如 A-D 转换 器 和 存储 
器 。 
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摘要 ”在 机 器 视 觉 和 工业 检测 的 任务 中 ， 现 代 智 能 摄像 机 的 处 理 能 力 已 经 超出 
了 简单 的 像素 操作 范围 。 智 能 摄像 机 可 以 运行 复杂 的 视觉 算法 ， 将 视频 数据 流 的 处 
理 和 分 析 逐 渐 从 大 型 中 央 服 务 器 转向 “前 沿 ” 处 理 。 本 章 将 探究 如 何 把 高 级 视觉 
软件 从 PC 移植 到 条 件 有 限 的 智能 摄像 机 开发 环境 。 基 于 智能 摄像 机 的 软件 开发 环 
境 近 似 于 PC 平台 ,并 具有 足够 高 的 处 理 速度 应 用 于 实时 分 析 。 这 里 将 举 两 个 例子 
来 说 明 如 何 将 实际 软件 移植 到 智能 摄像 机 。 最 后 ， 用 一 个 非常 复杂 的 行人 跟踪 算法 
作为 范例 ， 进 一 步 说 明 把 大 型 软件 系统 移植 到 计算 资源 有 限 的 装置 中 所 面临 的 
困难 。 




















6.1 简介 

















在 20 世纪 90 年代， 卡尔 斯 鲁 厄 的 一 家 企业 Germany manufacturer Vision 
Components 开发 出 便携 式 商业 化 智能 摄像 机 模型 ， 在 机 器 视觉 方面 得 到 了 成 功 
的 应 用 ， 这 种 设备 越 来 越 成 熟 。 如 今 ， 有 各 式 各 样 基础 硬件 架构 所 组 成 的 不 同 
模型 可 供 选择 ， 其 范围 从 小 型 ARM5 系列 CPU 到 工作 于 1GHz 时 钟 频率 下 的 德 
州 仪器 DSP 系列 。 本 章 叙 述 了 在 智能 监控 摄像 机 上 实施 复杂 视觉 算法 的 发 展 
和 相关 的 挑战 。 我 们 也 给 出 了 智能 摄像 机 软件 开发 的 一 些 有 效 方法 ， 即 把 标准 
视觉 库 植 入 到 Vision Components 生产 的 摄像 机 。 上 此外， 我 们 还 给 出 了 几 种 算法 
的 基准 结果 ， 最 后 深入 研究 了 行人 跟踪 和 人 数 统 计算 法 的 复杂 度 。 

对 超大 空间 区 域 进 行 监控 、 事 件 检测 和 监视 的 需求 不 断 增长 ， 智 能 摄像 机 恰恰 
是 解决 这 些 需求 的 理想 选择 。 智 能 设备 可 以 分 析 自 身 获 得 的 图 像 (在 系统 前 沿 )， 
且 只 把 高 级 别 的 事件 信息 发 送 给 服务 器 ， 而 不 是 传输 原始 视频 数据 (可 能 通过 简 
单 的 运动 分 析 ) 。 这 种 方式 下 ， 几 十 或 上 百 路 视频 流 的 实时 分 析 处 理 任务 被 合理 地 
分 配 在 网 络 上 。 相 对 于 集中 在 服务 咒 上 处 理 的 方法 ， 本 地 处 理 方法 有 利于 节约 带 
宽 ， 具 有 更 好 的 纠 错 功能 ， 并 且 能 节约 大 量 的 电能 。 然 而 ， 开 发 智能 摄像 机 系统 及 
视觉 软件 时 ， 以 下 几 点 十 分 重要 : 

CD 如 何 实现 不 同 摄像 机 间 的 通信 ? 

(2) 如 何 使 网 络 结构 具备 可 扩展 性 ? 

(3) 如 何 实现 网 络 中 的 分 布 式 处 理 ? 
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D 如 何 应 对 智能 摄像 机 中 (静态 的 ) 有 限 的 资源 ? 

@) 如 何 保证 智能 摄像 机 中 通用 软件 的 开发 进度 ? 

© 在 摄像 机 中 以 较 低 的 功 耗 实现 算法 ， 那 么 哪些 工作 是 必需 的 ? 

本 章 主要 讨论 第 由 ~ @ 问 题 : 如 何在 智能 摄像 机 中 开发 高 效 实时 视觉 算法 ? 

回顾 十 年 来 ， 由 Vision Components GmbH (VC) 推出 的 第 一 台 模 型 VC11 Ad 
备 了 ADSP2181 处 理 器 、512KB 闪存 、2MB 的 RAM 及 索尼 1/3 时 752 x 582 像素 的 
KE CCD 传感器 。 作 为 一 台 垦 入 式 计 算 机 ， 其 集成 了 图 像 传感器 和 可 供 开发 者 应 
用 的 软件 开发 环境 ， 具 有 革新 意义 。 使 用 的 ADSP2181 人 处理 器 要 求 分 段 寻 址 (与 第 
一 个 英特尔 处 理 器 非常 相似 )， 导 致 大 型 图 像 及 数据 数组 的 编程 处 理 更 加 元 长 复 
杂 。 另 外 ，VC 公司 的 函数 库 及 操作 系统 得 到 充分 优化 、 高 效 ， 并 且 支 持 鲁 棒 的 实 
时 应 用 开发 。 一 个 机 器 视觉 系统 的 开发 人 员 必 须 了 解 硬件 的 独特 性 及 VC 操作 系 
统 ， 以 便 能 更 高 效 地 开发 摄像 机 应 用 。 另 外 ， 为 了 更 好 地 使 用 摄像 机 ， 必 须 重 新 设 
计 和 编写 来 源 于 别处 的 图 像 处 理 代码 。 

某 种 程度 上 说 ， 人 们 在 应 用 中 必须 考虑 智能 摄像 机 硬件 的 专 有 属性 ， 但 是 ， 自 
从 引进 VC11 后 ， 对 于 智能 摄像 机 系统 的 低层 硬件 专 有 属性 的 依赖 性 已 经 大 幅度 减 
弱 。 供 应 商 在 设备 里 集成 了 功能 更 强大 的 处 理 器 ， 并 且 运 用 标准 的 操作 系统 一 E 
要 是 Linux 和 Windows CE， 所 有 这 些 使 得 软件 开发 更 轻松 。FESTO 摄像 机 、 索 尼 
模型 及 VC 智能 摄像 机 分 别 对 应 三 种 摄像 机 分 别 属于 低 端 、 中 端 及 高 端 三 种 性 能 
类 别 。 

作为 小 型 紧凑 的 Linux AZ, FESTO SBOC- M- RIB 摄像 机 的 尺寸 只 有 85 x85 x 
45m。 它 的 处 理 器 是 因 特 尔 XScale PXA255 处 理 器 ， 板 载 32MB 的 闪存 及 64MB 的 
RAM, 并且 配 备 索 尼 640 x480 像素 的 CCD EIRA, PRATE Linux 操作 系统 的 简约 
性 ， 使 得 该 摄像 机 的 小 型 化 成 为 可 能 。 不 久 的 将 来 ,我们 可 以 将 开放 计算 机 视觉 库 
以 及 中 型 应 用 程序 植 人 摄像 机 中 。 

最 新 的 索尼 XI- V100 智能 摄像 机 系列 运用 ULY Eden 处 理 器 ， 该 处 理 器 工作 在 
1000MHz 的 时 钟 频 率 下 ， 并 且 和 x86 兼容 。 该 摄像 机 有 512MB 的 RAM, Ff A SS 
1GB ~4GB 的 闪存 。 该 摄像 机 运行 于 Windows XP HK ASKER TEA Sst AEE T E E 
的 软件 开发 环境 。 

VC 公司 将 TI TMS320C644x 处 理 器 植 人 功能 强大 的 VC44 系列 智能 摄像 机 。 该 
处 理 器 运行 在 1000MHz 的 时 钟 频 率 下 ， 提 供 4MB FENT, SD 卡 提供 高 达 
512MB 的 附加 闪存 ， 及 64MB 的 动态 RAM。 该 摄像 机 配备 了 不 同 的 传感器 及 分 辩 
率 可 供 选 择 。1GHz TMS320C644x DSP 是 目前 DSP 中 速度 最 快 的 ， 它 的 特点 是 具有 
JEW RISC 的 指令 集 ， 可 以 并 行 调度 八条 指令 ， 同 时 片上 有 两 个 L, 高 速 缓冲 存储 器 
(每 个 32KB) 及 一 个 256KB 的 L, 高 速 缓冲 存储 器 。 得 益 于 TMS320C644x 的 架构 ， 
VC44 智能 摄像 机 的 处 理性 能 接近 于 现代 PC 机 。 虽 然 VC 公司 仍 使 用 其 原始 操作 系 
统 中 的 API 及 图 像 处 理 库 〈 近 几 年 有 新 的 增加 ) ， 但 是 单 层 地 址 空间 及 TI 开发 软件 
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的 方便 性 使 得 应 用 开发 更 容易 。 

由 以 上 介绍 的 设备 可 以 看 出 ， 现 代 智能 摄像 机 的 处 理 能 力 远 远 不 只 是 简单 的 像 
素 操作 运算 。 这 些 高 性 能 智能 摄像 机 中 CPU 运行 算法 的 速度 可 与 现代 PC 机 的 速度 
相 比 拟 。 然 而 ,仍然 存在 一 些 基 本 的 挑战 性 问题 ,来 自 于 现代 视觉 算法 的 属性 和 可 
实现 性 方面 : 浮 点 运算 的 运用 ,快速 存储 /像素 访问 ,巨大 数据 集合 上 的 矢量 /和 矩阵 
运算 及 软件 环境 。 


6.1.1 浮 点 运算 


现在 大 部 分 视觉 算法 都 是 用 浮 点 运算 设计 的 ， 很 少 涉及 整 型 运算 。 这 和 智 
能 摄像 机 中 大 多 数 般 入 式 CPU 的 情况 截然 相反 一 一 它们 通常 不 提供 浮 点 型 硬 
件 逻 辑 。 这 需要 在 软件 中 模拟 序 点 或 双 精 度数 据 类 型 ， 使 得 运算 速度 比 单纯 的 
整 型 运算 速度 降低 了 至 少 10 倍 。 用 于 检测 、 零 件 计 数 或 者 测量 的 标准 机 器 视 
觉 算法 涉及 卷 积 中 的 像素 邻 域 处 理 和 阔 值 运算 。 在 这 些 应 用 中 ， 通 过 软件 模拟 
很 容易 实现 要 求 不 高 的 浮 点 运算 ,但 是 如 果 需 要 快速 执行 代码 ， 那 么 现代 机 器 
视觉 便 不 能 再 依靠 浮 点 模拟 。 在 目标 检测 中 ， 常 用 的 典型 高 级 算法 有 : 神经 网 
络 (NN) ， 支 持 向 量 机 (SVM) 021 ， 主 量 分 析 (PCA) 或 者 由 卡 耐 德 . E 
斯 . 托 马 西 提出 的 跟踪 算法 (KLT), 最近， 基于 特征 向 量 归 一 化 的 各 种 
寺 征 运算 方法 ， 例 如 方向 梯度 直方 图 (HOG)'"* ， 很 大 程度 上 取决 于 浮 点 运 
算 。 在 能 入 式 系统 中 让 这 些 算法 运行 在 可 接受 的 速度 的 唯一 方法 就 是 把 他 们 重 
写 为 定点 算法 并 且 尽 可 能 地 用 16 32 或 者 64 位 的 整 型 运算 。 第 6. 3. 1 节 将 介 
绍 把 具有 密集 浮 点 运算 的 KLT 算法 改 为 定点 运算 的 方法 ， 比 原始 编程 代码 的 
速度 高 出 十 倍 。 


6.1.2 快速 存储 /像素 访问 


在 许多 高 级 视觉 算法 中 ,需要 快速 像素 访问 来 计算 局 部 统计 参数 、 直 方 图 
WME, TER ARASH, FFM CPU 与 存储 器 之 间 存 在 一 个 很 慢 的 通道 ， 
所 以 像素 访问 就 变 成 了 瓶颈 ， 另 外 骨 和 式 CPU 仅 包 含 的 小 容量 高 速 缓存 ， 这 
使 得 像素 访问 的 问题 变 得 更 加 复杂 。 男 外 ， 相 对 于 台式 机 架构 来 说 ， 般 入 式 
CPU 较 低 的 时 钟 频率 限制 了 每 秒 执行 的 机 器 指令 ， 进 一 步 降 低 了 特征 运算 的 
速度 。 

针对 上 述 存在 的 信息 处 理 瓶 颈 ， 我 们 可 以 通过 优化 算法 或 者 优化 代码 找到 解决 
方法 。 通 常 ， 改 进 算法 设计 是 更 有 意义 的 ， 而 不 是 在 算法 实现 阶段 致力 于 获得 一 点 
儿 性 能 的 改进 (当然 SW 优化 的 后 期 处 理 也 很 必要 ， 只 是 相对 前 者 所 获取 的 计算 增 
速 较 低 ) 。 例 如 ， 用 更 大 的 内 存 需求 为 代价 ， 用 整 值 图 像 来 进行 特征 计算 ， 使 局 部 
直方 图 的 计算 速度 提高 了 至 少 100 fit, 
通常 ， 智 能 摄像 机 中 的 存储 器 并 非 紧缺 的 资源 ， 因 此 常常 用 来 换取 速度 。 解 决 
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上 面 所 提 到 的 瓶颈 问题 还 可 以 采用 另 一 种 基于 硬件 的 方法 ， 利 用 专用 指令 集 改 善 舰 
Ask DSP 系统 中 指令 的 吞吐 量 。 例 如 ，TI TMS320C644x 的 CPU 具有 一 个 非常 大 的 
上 令 集 ， 可 以 在 一 个 时 钟 周期 内 同时 执行 多 条 指令 。 


6.1.3 ”大 型 数据 集 上 的 向 量 / 和 矩阵 运算 


许多 高 级 视觉 算法 ， 例 如 PCA 或 者 SVM 都 用 到 向 量 / 和 矩阵 运算 ， 加 重 了 上 面 
所 述 问题 的 同时 ， 也 降低 了 该 算法 运行 的 速度 。 基 于 在 典型 窗口 /探测 器 滑动 扫 
描 方法 中 ， 每 幅 图 像 必须 执行 成 千 上 万 次 的 PCA/SVM 分 类 运算 ( 见 参 考 文献 
[129], [384] 中 的 举例 ) ， 面 对 这 样 的 事实 ， 开 发 者 不 了 敢 利用 智能 摄像 机 做 这 
样 的 工作 。 人 解决 这 类 处 理 的 瓶颈 问题 需要 在 算法 层 上 进行 改进 。 一 种 方法 是 把 级 
数 减 小 1 ~2 阶 ， 降 低 基 本 分 类 器 的 复杂 度 ， 从 而 缩减 算法 处 理 的 规模 (例如: 
由 线性 SVM 核 取 代 多 项 式 ) 。 另 一 个 解决 方法 是 级 联 分 类 器 ， 且 当 大 部 分 错误 的 
检测 已 经 在 前 面 的 环节 被 消除 时 ， 只 进行 必要 的 计算 ( = 复杂 分 类 器 ) 。 后 者 已 
经 被 证 实 成 功 有 效 ， 并 且 已 经 成 为 高 级 视觉 算法 的 标准 ， 相 关 细 节 的 介绍 见 参考 
文献 [552]. 


6.1.4 软件 开发 环境 


最 后 一 个 障碍 (虽然 更 多 是 主观 上 的 ) 来 自 舱 入 式 开 发 解决 方案 的 复杂 性 ， 
以 及 智能 摄像 机 架构 和 商用 软件 开发 平台 专用 化 的 必要 性 。 现 在 的 智能 摄像 机 支持 
ERATU Linux， 有 时 也 支持 Windows 系列 。 

总 结 最 近 的 硬件 发 展 ， 并 且 回 顾 上 述 的 各 种 挑战 ， 我 们 可 以 知道 ， 智 能 摄像 机 
的 实现 和 商业 化 ， 从 20 世纪 80 年 代 以 来 已 经 经 历 了 很 长 的 路 程 。 为 智能 摄像 机 编 
写 的 软件 几乎 和 人 台式 机 系统 的 开发 、 调 试 和 测试 一 样 。 当 涉及 智能 调度 、 分 布 式 监 
视 和 监控 系统 时 ， 智 能 摄像 机 因 其 优良 的 性 能 而 成 为 很 有 吸引 力 的 选择 。 以 色 列 的 
ioimage 公司 已 经 证 明了 这 点 。 

对 本 章 剩 下 的 内 容 做 如 下 安排 : 6.2 节 将 描述 VC 公司 如 何 把 OpenCV 植 人 智 
能 摄像 机 。6. 3 市 将 描述 两 项 应 用 的 移植 : 基于 KTL 跟踪 的 运动 分 析 和 行人 追踪 
的 复杂 算法 。 



































6.2 高 级 视觉 库 在 智能 摄像 机 中 的 使 用 


虽然 OpenCV 源 代码 起 初 是 为 优化 因 特 尔 处 理 器 而 设计 的 函数 库 ， 但 其 应 用 起 
来 非常 方便 ， 并 且 适 合 运 行 在 不 同类 型 的 操作 系统 及 编译 环境 下 。 本 节 描 述 了 一 些 
概念 性 的 编码 基础 ， 对 于 在 TI DSP 开发 架构 中 进行 代码 编译 是 非常 必要 的 。 本 节 
提供 的 测试 和 实验 都 是 基于 VC4465 模型 的 。 该 模型 运行 在 1CHz， 有 64MB 的 
RAM 及 一 个 640 x480 像素 分 辨 率 的 传感器 。VC 提供 了 一 个 软件 包 ， 包括 一 个 用 








第 6 章 谋 入 式 视 觉 面临 的 挑战 83 





C 或 C++ 语言 进行 应 用 开发 的 图 像 处理 函 数 库 。 该 图 像 处理 函 数 库 对 于 TI C64xx 
处 理 器 系列 及 VC 智能 摄像 机 硬件 进行 了 优化 且 非 常 有 效 。 该 函数 库 的 不 足 之 处 是 
仅 具 备 典型 的 图 像 处理 功 能 ， 而 不 能 用 于 高 级 数据 结构 或 者 视觉 算法 。 因 此 ， 我 们 
将 OpenCV 计算 机 视觉 函数 库 植 入 VC 智能 摄像 机 。 接 下 来 ， 首 先 介绍 如 何 改变 
OpenCV 来 适应 VC 智能 摄像 机 ， 然 后 再 介绍 在 PC 上 进行 两 个 基准 测试 并 比较 标准 
执行 时 间 。 


6.2.1 改编 OpenCV 函数 库 来 适应 VC 智能 摄像 机 


扩展 OpenCV 源 代码 来 适应 管 能 摄像 机 ， 但 是 不 能 丢失 源 代码 与 PC 平台 的 羔 
容 性 。 为 了 选择 正确 的 操作 系统 也 数 ， 必 须 给 编译 器 提供 当前 处 理 器 架构 的 信息 。 
在 我 们 的 方案 中 ， 编 译 需 变量 (VC_DSP) 提供 了 这 种 信息 。 

移植 OpenCV 的 关键 点 是 它 的 内 存 分 配 / 释 放 与 VC 摄像 机 内 部 的 存储 器 管理 
系统 的 相互 兼容 。 以 下 三 步 描述 了 源 代码 级 的 改编 。 

(1) 执行 VC 系统 函数 sysmalloc( ) 和 sysfree( ) 可 以 进行 内 存 的 分 配 或 释放 。 
为 了 确保 这 两 个 重要 函数 的 功能 在 智能 摄像 机 中 以 OpenCV 方式 实现 ,需要 修改 原 
函数 ievDefaultAlloc( ) 及 icvDefaultFree( ) ， 并 且 创 建 一 个 新 函数 aloca( ) 实施 调 
用 VC sysmalloc( ) 和 sysfree( ) AZ: 

D 以 VC 智能 摄像 机 为 例 ， 在 cxcore. h 中 插入 附加 的 原型 定义 ， 


#if defined VC_DSP 
void«  VCmalloc( size t size ); 
voids  VCfree( voids point ); 
#endif 


@) 实现 匹配 函数 VCmalloc 和 VCfree， 进 一 步 完 成 文件 exalloc. cpp 中 使 用 的 函 
数 icvDefault Alloc 和 icvDefaultFree 的 VC_DSP 专用 implementation。 以 下 代码 片段 
提供 了 关于 implementation 的 信息 : 


#if defined VC DSP 

// includes needed for VC smart camera 
#include «vcrt.h» 

#include <macros.h> 

#include <sysvar.h> 





























void»  VCmalloc( size t size ) 

{ 
void *pPointer = NULL; 
pPointer = sysmalloc( size, MDATA ); 
return pPointer; 


} 


void»  VCfree( void» point ) 
( 
sysfree( point ); 
return NULL; 
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static void» icvDefaultAlloc( size t size, void» ) 
{ 
char «ptr, *ptr0O = (char) sysmalloc( 
(size_t) (size + CV_MALLOC_ALIGN+«((size >= 4096) + 1) 
+ sizeof (char*)),MIMAGE) ; 





if( !ptro ) return 0; 
// align the pointer 
ptr = (char«)cvAlignPtr(ptrO + sizeof(char*) + 1, CV MALLOC ALIGN); 
*(char**) (ptr - sizeof(char*)) = ptr0; 
return ptr; 
J 
static int icvDefaultFree( void» ptr, void» ) 
{ 
// Pointer must be aligned by CV_MALLOC_ALIGN 
if( ((size_t)ptr & (CV_MALLOC_ALIGN-1)) != 0 ) 
return CV_BADARG_ERR; 
sysfree( *((char**)ptr - 1) ); 
return CV OK; 
} 
#else 
#endif 


© 激活 在 文件 cximsc. h 中 的 VC 专 有 内 存 分 配 释放 函数 


/* get alloca declaration */ 
#ifdef | GNUC . 
undef alloca 
#define alloca , builtin alloca 
*elif defined WIN32 || defined WIN64 
if defined  MSC VER || defined | BORLANDC . 
#include «malloc.h» 
endif 
#elif defined HAVE ALLOCA H 
include «alloca.h» 
#elif defined HAVE ALLOCA 
include <stdlib.h> 
#elif VC_DSP 
#undef alloca 
#define alloca VCmalloc 
#endif 


(2) HFE, PA icvInitProcessorInfo () 应 该 包括 描述 TI 处 理 器 的 
epu, info () 。 这 个 附加 的 初始 化 必须 在 文件 exswitcher. epp 中 执行 。 


static void icvInitProcessorInfo( CvProcessorInfo* cpu info ) 


( 























memset( cpu info, 0, sizeof(*xcpu info) ); 
cpu info-»model = CV PROC GENERIC; 

#if defined VC, DSP 
#ifndef PROCESSOR ARCHITECTUR 
#define PROCESSOR ARCHITECTUR 
*endif 
cpu info-»model = CV PROC TI64XX; 








TI64XX 
TI64XX 99 











E 
E 





cpu info-»count = 1; // Number of processors; 
cpu info-» frequency = getwar(CPUCLK) / 1000000; 
#else 


#endif 
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(3) HW R pK X icvCreateContext ( ) 和 ievDestroyContext. ( ) 时 必须 引起 注 
意 。 我 们 需要 特别 注意 它们 在 智能 摄像 机 上 的 新 定义 ， 所 以 在 读 下 面 的 源 代码 时 ， 
应 该 检查 一 下 在 文件 exerror. epp 中 所 做 的 修改 。 

#if defined VC DSP 

#include <vert.h> 

#include <macros.h> 

#include <sysvar.h> 


static CvContext+ icvCreateContext (void) 


CvContext* context = (CvContext*) sysmalloc (sizeof (CvContext),MDATA ); 
context--err mode = CV ErrModeLeaf; 

context-»-err code = CV StsOk; 
context-»error callback = CV DEFAULT ERROR CALLBACK; 
context->userdata = 0; 

return context; 


j 




















static void 

icvDestroyContext (CvContext* context) 

sysfree(context); 

j 

#else 

endif 

将 OpenCV 移植 到 摄像 机 上 的 本 质 要 求 是 确定 VC 开发 环境 的 内 存 分 配 函 数 。 
对 于 输入 输出 功能 函数 仍然 存在 一 些小 的 问题 , 但 是 利用 VC 软件 开发 库 中 现存 的 
功能 ， 能 够 比较 容易 地 模拟 这 些 不 兼容 性 。 











6.2.2 在 VC 摄像 机 上 运行 OpenCV HAE 





工业 实时 应 用 是 智能 摄像 机 的 一 个 重要 的 应 用 领域 ;因此 这 种 设备 能 否 实 现实 
时 性 能 是 很 重要 的 。 这 一 部 分 通过 使 用 两 个 基准 测试 比较 了 OpenCV 在 VC4465 摄 
像 机 和 LG 内 存 的 因 特 尔 奔腾 APC 机 上 的 性 能 。 

第 一 个 基准 测试 比较 了 对 于 基本 图 像 处 理 功能 的 计算 次 数 ， 称 之 为 低级 别 测 
试 。 表 6. 1 所 示 的 低级 别 测试 的 结果 表明 ，PC 机 的 速度 比 VC 智能 摄像 机 的 快 
4 ~10 倍 。 更 为 显著 的 是 腐蚀 函数 在 PC 机 上 明显 较 快 。VC 本 机 的 函数 库 和 
OpenCV 的 差别 很 小 ，OpenCV RAŽE ET MT TL 处 理 器 或 TI 编译 器 进行 优化 的 情 
况 下 也 是 如 此 。 

第 二 个 基准 测试 ， 高 级 别 基 准 测 试 使 用 与 低级 别 测试 相同 的 硬件 配置 ， 对 一 幅 
图 像 在 三 种 不 同 的 分 辨 率 下 进行 测试 并 比较 OpenCV Viola Jones 人 脸 检测 算法 实现 
的 计算 时 间 。 

d 6. 2 中 的 测试 结果 表明 ， 相 对 于 智能 摄像 机 来 说 ， 脸 部 检测 函数 的 速度 在 
PC SL E10 ~13 信 。 尽 管 初 看 起 来 差别 可 能 很 大 , 但 是 这 些 差别 主要 是 由 于 在 
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6. 1 部 分 中 所 描述 的 问题 : VC 摄像 机 中 的 存储 器 访问 速度 较 低 ， 以 及 OpenCV 需 
要 浮 点 和 双 精 度 操作 来 实现 Haar 特征 运算 。 消 除 浮 点 操作 ,或 者 至 人 少 优化 代码 中 
的 这 些 部 分 ， 会 使 Haar 检测 函数 的 速度 提高 至 少 两 倍 。 将 在 6.3.1.2 节 中 阐述 关 
于 优化 定点 运算 算法 的 好 处 。 
表 6.1 低级 别 基准 测试 结果 。 所 有 被 评价 的 运算 方法 均 
使 用 640 x 480 HAR, n/a 表示 没有 对 应 的 函数 






























































VC 摄像 机 上 的 
操作 VC mB | OpenCV 函数 运行 时 间 /ms PC 上 的 运行 时 间 /mns 
VC 库 OpenCy 库 
用 固定 值 填 充 图 
像 数据 cset () cvSet () 1.0 2.0 0. 22 
两 幅 图 像 的 像素 
逐个 相 减 sub2 () cvSub () 6.3 8.8 1.26 
将 数据 从 输入 图 
像 复制 到 输出 图 像 | CO | vc © i oe 0:74 
用 7 x7 的 高 斯 内 
核 进行 卷 积 n/a cvSmooth ( ) n/a 20.0 5.46 
用 3 x3 的 矩形 结 5 Sand (3 > Pa T! 
n/a cvomooth n/a ‘ N 
构 元 素 腐蚀 
表 6.2 脸 部 检测 基准 测试 结果 
图 像 尺 寸 / 像 素 VC 智能 摄像 机 上 的 运行 时 间 /ms PC 上 运行 的 时 间 /ms 
782 x582 5162 455 
391 x291 1336 105 
195 x145 272 28 








63 应 用 


这 一 部 分 将 讲述 智能 摄像 机 中 两 个 重要 的 计算 机 视觉 应 用 程序 的 移植 。6. 3. 1 
节 将 讲述 KLT 特征 追踪 器 的 移植 ，6. 3. 2 节 将 展示 更 加 复杂 的 行人 检测 、 追 踪 、 计 
数 的 算法 ， 适合 应 用 于 人 群 拥挤 的 场景 。 


6.3.1 运动 分 析 


这 一 部 分 给 出 了 在 VC4465 模型 上 实现 和 测试 KLT 追踪 算法 :天 的 实例 ， 该 模 
型 包括 一 个 IGHZ 的 TMS320C64 x 处 理 器 以 及 一 个 768 x 582 像素 的 图 像 传 感 器 ， 
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展示 了 智能 摄像 机 进行 实时 追踪 的 可 行 性 。KLT 算法 的 主要 思想 就 是 在 一 系列 图 像 
中 追踪 到 重要 的 图 像 特 征 。 特 征 就 是 一 些小 图 像 窗 口 W (一 般 是 7 x7 像素 ) 其 中 
包含 一 些 纹理 信息 。 首 先 有 选择 地 对 它们 进行 平滑 (去 除 噪声 ) ， 然 后 对 图 像 进行 
微分 ， 选 择 水 平和 垂直 边缘 均 为 最 高 幅度 值 的 那些 窗口 。 接 着 通过 迭代 程序 对 每 个 
窗口 进行 一 帧 接 一 帧 地 追踪 ， 该 程序 估计 出 图 像 的 位 移 ， 然 后 以 亚 像素 的 精度 匹配 
特征 。 这 个 过 程 重 复 进 行 ， 直 到 错误 小 于 一 个 给 定 的 冰 值 。 图 像 位 移 的 估计 是 以 图 
像 梯 度 信息 为 基础 的 ， 且 涉及 窗口 W 上 的 四 个 积分 行列 式 的 计算 。 尽 管 估计 本 身 
是 耗 时 的 ， 但 是 它 通过 减少 W 的 匹配 数 ， 从 本 质 上 减少 了 计算 时 间 。 

6.3.1.1 方法 论 

VC4465 摄像 机 通过 局 域 网 与 外 界 环境 进行 通信 ， 但 没有 足够 的 带宽 来 保证 原 
始 图 像 以 一 定 的 速率 传输 ， 难 以 使 得 序列 图 像 能 被 储存 起 来 并 用 来 测试 。 由 于 摄像 
机 仅 有 64MB 的 RAM 和 4MB 的 闪存 ， 用 于 图 像 保 存 并 非 好 的 解决 方案 。 因 此 ， 为 
了 获得 可 重复 再 现 的 结果 ， 大 多 数 图 像 序列 的 统计 计算 在 PC 机 上 进行 。 最 后 ， 除 
了 对 6. 2.1 节 中 所 述 的 内 存 管理 以 及 输入 输出 函数 的 改进 ， 在 Intel/ Windows 环境 
以 及 智能 摄像 机 上 都 使 用 了 相同 的 代码 。 

6.3.1.2 E KLT 跟踪 代码 的 浮 点 版 本 

在 智能 摄像 机 上 实现 该 代码 的 第 一 步 是 修改 现 有 的 用 于 PC 的 代码 ， 从 而 使 得 
修改 后 的 代码 在 摄像 机 的 DSP 上 能 够 正确 编译 且 没 有 警告 。 最 初 的 FLK 运行 在 
DSP 上 时 ， 每 个 像素 的 计算 都 采用 了 纯 浮 点 数 ， 对 于 几乎 没有 运动 的 图 像 序列 ， 处 
理 速度 为 1. 1 帧 / 秒 (fps) ， 对 于 高 速 运动 的 图 像 序列 ， 处 理 速度 为 0.6 帧 / 秒 。 
速 运动 的 图 像 内 容 使 得 算法 要 执行 窗口 搜索 微调 过 程 中 所 有 的 八 个 循环 。 在 最 初 尝 
试 加 速 计算 的 时 间 时 ， 我 们 使 用 了 TI TMS320C62x/64x 快速 运行 时 间 支 持 库 ( Fas- 
tRTS)S ， 其 中 包含 了 单 双 精 度 的 浮 点 运算 模拟 函数 。 取 代 原 来 运行 速度 慢 的 函数 
后 ， 追 踪 器 的 运行 速度 提供 了 大 约 2.5 倍 。 目 前 为 止 ， 对 于 实际 应 用 来 说 ， 该 代码 
仍然 不 足够 快 。 

6.3.1.3 移植 到 定点 运算 

在 定点 处 理 器 上 模拟 浮 点 运算 是 无 效 的 ， 两 个 浮 点 数值 的 乘法 运算 需要 35 个 
时 钟 周期 ， 加 法 运算 则 达到 81 个 时 钟 周期 。 因 此 我 们 的 目标 是 尽 可 能 地 消除 代码 
中 所 有 重要 部 分 的 浮 点 运算 。 特 别 指出 ， 需 要 采用 定点 运算 来 优化 下 面 的 这 些 计 算 
功能 。 

D 图 像 中 水 平 及 垂直 变化 的 梯度 运算 ; 

© 图 像 的 水 平 及 垂直 平 请 ; 

O 亚 像素 精度 的 特征 窗口 插值 (在 计算 积分 中 需要 用 到 ， 因 为 需要 在 亚 像 素 
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C TMS320C62x/64x 处 理 器 的 FastRTS 函数 库 ， 由 德州 仪器 公司 开发 。 
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精度 下 进行 的 匹配 ) ; 
@ 计算 特征 窗口 的 积分 。 
需要 解决 的 主要 问题 是 ， 如 何 用 整数 表示 从 0 到 1 变化 的 数字 ? 这 种 问题 将 出 
现在 计算 变化 率 、 平 滑 图 像 、 直 线 切 前 图 像 以 及 计算 位 移 等 情况 。 如 果 考 虑 用 n 
bit 存储 一 个 数字 ， 那 么 可 以 分 配 i bit 给 整数 部 分 ， RIP AY (n-i) bit 给 小 数 部 
分 。 整 数 部 分 所 包含 可 能 数值 的 总 数 定 义 为 取 值 范围 (2")， 小 数 部 分 中 两 个 连续 
值 的 最 小 差 值 定义 为 精度 (1/27) 。 下 面 是 一 个 8bit 无 符号 整数 的 简单 例子 : 
97 
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[128 ea 32 16 8 4 2 |1 
这 是 数值 范围 为 236 、 精 确 度 是 1 的 数字 ， 因 为 它 能 表示 2° = 256 种 不 同 的 值 ， 
且 两 个 连续 值 之 间 的 最 小 差别 是 1/2" = 1。 这 种 表示 方法 定义 为 256. 1。 如 果 分 配 
Abit 给 整数 部 分 ， 余 下 的 Abit 给 小 数 部 分 ， 结 果 会 是 
25 
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2/1 | 0.5 D 25 o. 125 10.0625. 





这 个 数值 的 范围 是 24 =16， 精 度 是 1/24 = 0.0625 (定点 16. 16) 。 在 定点 数字 
上 的 算法 运算 操作 是 十 分 简单 的 。 尽 管 如 此 ， 我 们 应 该 注意 到 ， 正 常情 况 下 两 个 
16bit 的 数字 相 乘 的 结果 是 32bit， 其 中 小 数 部 分 是 16bit。 当 这 些 额 外 的 位 数 不 可 用 
时 ， 将 会 产生 洲 出 。 解 决 的 办 法 就 是 使 用 有 效 位 数 的 一 半 来 存储 数值 。 

执行 完 算术 运算 之 后 ， 结 果 必 须 经 过 适当 的 移 位 来 获得 定点 数 ， 使 之 达到 正确 
的 数值 范围 和 精度 。 这 种 方法 的 缺点 就 是 32bit 的 整数 只 能 有 效 地 存储 16bit AY Be 
值 。 最 终 的 KLT 代码 中 的 数据 表示 方案 如 下 : 

(D 16bit 有 符号 整数 值 代表 代码 中 的 所 有 数值 (特例 看 下 面 ) ; 

(2) 保留 8bit 作为 数值 的 整数 部 分 (一般 情况 下 使 用 8bit 数值 表示 图 像 像 素 
值 ); 

@) 剩余 的 7bit 表示 数值 的 小 数 部 分 ; 

D 坐标 值 作为 32bit 的 有 符号 数值 存储 (其 中 7bit 是 精度 ) ; 必要 的 时 候 转 变 
为 定点 格式 ， 这 使 得 算法 能 在 宽 高 都 为 256 像素 或 更 大 的 图 像 上 进行 操作 。 

在 较 长 的 计算 中 变量 仅 存 为 16bit 的 数值 ， 中 间 结 果 尽 可 能 地 暂 存 为 32bit。 只 
有 当 必 需 的 时 候 ， 这 些 值 被 转换 为 16bit。 既 然 估算 特征 位 移 的 行列 式 计算 需要 一 
个 很 大 的 数值 动态 范围 ， 这 种 情况 下 需要 80bit (由 TI 编译 器 支持 ) 的 整数 。 这 种 
选择 并 没有 引起 程序 执行 时 间 上 的 明显 减少 ， 因 为 对 每 一 个 特征 窗口 W 的 匹配 只 
需要 进行 一 次 行列 式 计 算 ， 而 且 80bit 整数 的 计算 比 使 用 浮 点 运算 还 要 快速 。 
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在 算法 中 实现 的 C 代码 ,采用 的 整数 运算 显然 已 取代 了 原始 的 浮 点 代码 ， 因 
为 在 大 多 数 情况 下 ， 变 量 及 其 使 用 都 是 一 致 的 。 因 可 视 化 的 需要 ， 必 有 需 改 变 基础 数 
据 类 型 ， 且 需 调 整 它们 的 编译 。 

我 们 也 试 着 使 用 单 指 令 多 数据 流 (SIMD) 的 指令 来 优化 代码 。 然 而 ，SIMD 指 
令 在 该 处 理 器 上 工作 需要 16bit 或 者 8bit 的 数字 。 当 把 数值 范围 缩小 到 3bit， 精 度 
降低 至 4bit 时 ， 该 算法 就 不 能 正常 运行 了 ， 因 此 只 能 放弃 这 种 想法 。 

6.3.1.4 执行 次 数 

对 于 所 有 水 数 的 实现 ， 我 们 测试 了 单 次 追 踊 迭代 的 执行 时 间 。 对 于 几乎 没有 运 
动 的 场景 ， 主 要 涉及 KLT 算法 的 梯度 运算 以 及 平滑 部 分 ,计算 行列 式 所 需要 的 时 
间 明 显要 少 于 高 速 运动 场景 的 时 间 。 因 此 我 们 选择 了 6.3.1.2 节 中 所 描述 的 两 种 不 
同 的 场景 (低速 运动 和 高 速 运 动 场景 )， 来 评估 不 同 优化 方法 的 效果 。 下 面 的 配置 
用 于 KLT 追踪 器 的 所 有 测试 项 目 中 : 

(D 384 x291 像素 的 图 片 ; 

© 150 个 跟踪 点 ; 

@7 x7 像素 的 窗口 ; 

D 最 多 8 次 迭代 的 特征 细 化 。 

表 6.3 说 明了 单 次 跟踪 迭代 时 间 在 经 过 每 一 步 优 化 之 后 是 如 何 降低 的 。 

表 6.3 单 次 跟踪 迭代 时 间 以 ms 计 。 测 试 平台 为 VC4465 摄像 机 ， 内 含 1GHz 的 TI DSP 





















































FLKIt/ms FLKIt 和 FaskRTS/ms FxKLt/ms 
低速 运动 915 365 35 
高 速 运动 1675 630 68 











即使 是 在 PC 机 上 编译 ,定点 版 本 每 帧 仅 需 要 22ms， 而 原始 的 浮 点 代码 则 需要 
24ms， 前 者 略 快 一 点 。 这 就 意味 着 即使 在 PC 机 上 使 用 定点 代码 也 能 获得 适当 的 增 
速 (不 需要 使 用 现在 所 有 的 现代 处 理 器 上 都 可 用 的 SIMD 指令 ) 。 

6.3.1.5 比较 定点 和 浮 点 的 跟踪 准确 性 

为 了 测试 方案 的 准确 性 ， 采 用 了 一 群 人 在 地 下 车 站 向 电梯 移动 的 序列 图 像 ， 包 
含 799 帧 图 像 ， 帧 率 为 13Hz。 为 了 进行 估计 ， 选 择 了 150 个 跟踪 点 ， 追 踪 过 程 在 
798 帧 图 像 中 逐 点 执行 。 然 后 ， 在 定点 和 浮 点 实现 时 ， 所 有 对 应 点 之 间 的 绝对 差 值 
体现 在 一 个 直方 图 中 。 结 果 如 图 6. 1 所 示 。 点 坐标 的 平均 精度 是 0. 75 像素 。 

总 之 ， 点 追踪 的 实时 算法 能 够 合理 地 移植 到 具有 定点 算法 处 理 器 的 智能 摄像 机 
上 ， 并 达到 满意 的 精确 度 。 在 代码 中 ， 精 心 调 整 变 量 的 整数 或 者 小 数 部 分 ， 可 以 在 
速度 和 精度 之 间 取 得 平衡 。 当 分 辨 率 为 384 x291 像素 ， 帧 速率 为 30Hz Hf, KLT GE 
踪 避 在 1GHz 的 和 I 数字 信号 处 理 絮 上 可 以 正常 工作 。 
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6.3.2 智能 摄像 机 的 行人 跟踪 与 计数 
这 一 节 讲述 了 一 种 更 加 复杂 的 用 于 行人 检测 及 跟踪 的 算法 ， 这 种 算法 能 够 在 非 


常 拥 挤 的 情形 下 ， 比 如 地 铁 站 的 电梯 入 口 处 统计 人 数 。 对 人 和 群 
踪 已 经 取得 了 很 大 的 进步 ,但 这 
GaP MO) 。 现 实 场景 中 不 仅 包 
括 松散 的 人 群 ， 也 包括 稠密 





的 人 群 。 浅 角度 成 像 的 条 





F, 互相 遮挡 很 严重 ， 任 何 
跟踪 算法 也 难以 奏效 ， 即 使 
采用 多 摄像 机 的 方法 也 不 能 
解决 问题 。 我 们 提出 的 行人 
跟踪 及 计数 算法 ， 采 用 双重 
策略 解决 这 个 问题 : 中 检测 
可 能 多 的 行人 ， 并 允许 误 
检 ; 对 统计 数字 关于 时 间 








进行 积 4 
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中 单个 人 的 检测 和 追 


文 种 算法 仅仅 在 实验 室 中 对 一 小 部 分 人 进行 测 








图 6.2 地 下 车 站 的 


我 们 提出 的 人 群 计数 方 





法 整合 了 多 种 假设 ， 用 于 在 时 间 和 空 











挤 画 面 








间 两 方面 对 人 的 头 肩 部 区 域 进行 检测 。 这 种 算 


法 往往 不 会 对 每 个 行人 产生 唯一 的 轨迹 (尽管 那些 轨迹 通常 距离 很 近 ) ， 但 是 我 们 


能 看 出 ， 基 于 人 为 分 类 的 真实 背景 数据 进行 系统 校正 因子 的 一 





次 估计 后 ， 在 很 复杂 


的 真实 场景 中 精度 能 上 升 到 98% 。 图 6. 2 展示 了 在 地 下 和 车 站 里 测试 摄像 机 获取 的 


一 帧 图 像 ， 附 有 外 加 的 轨迹 线 和 横 


[495 ] 。 


也 有 一 些 方案 不 需要 借助 于 行人 追踪 来 处 理 真实 场景 ， 





断面 计数 线 。 关 于 算法 的 详细 介绍 见 参考 文献 


见 参考 文献 [87 


437，106]。 但 是 ， 它 们 远 远 不 满足 实时 性 ， 所 以 很 难 移植 到 智能 摄像 机 中 。 在 


6.3.2.3 节 中 将 生 讲 述 如 何 把 我 们 的 算法 移植 到 笨 





能 摄像 机 上 。 


第 6 章 上 误 入 式 视觉 面临 的 挑战 91 





6.3.2.1 人 和 群 追踪 算法 

我 们 的 追踪 算法 基于 这 样 一 种 观察 一 一 不 考虑 他 们 的 衣服 及 其 他 特征 ， 他 们 的 
头 部 和 肩 部 形成 一 种 典型 的 OQ 形 。 基 于 有 效 形状 模型 (ASM) 的 检测 ， 基 于 简单 背 
景 模型 的 关注 滤波 器 和 用 于 预测 的 运动 检测 成 为 了 我 们 提出 的 行人 跟踪 系统 的 核心 。 

在 运动 估计 中 采用 一 种 简单 的 背景 (BG) 模型 ， 就 能 从 每 帧 图 像 中 除去 不 感 
兴趣 的 像素 ， 从 而 为 后 续 检 测 阶段 节省 了 时 间 。BG 模型 很 容易 实现 定点 运算 。 它 
把 新 的 帧 以 一 定 的 权重 加 入 到 累积 帧 ， 其 中 a 控制 更 新 速率 : 

BG,., = (17a) + BG, +a + Image, (6.1) 

当 粗 略 地 检测 出 轮廓 之 后 ， 就 可 用 方向 梯度 模式 检测 器 的 直方 图 模式 来 定位 行 
人 候选 人 。 通 过 定点 运算 不 仅 可 以 完全 实现 该 方法 ， 也 可 以 实现 分 类 的 线性 支持 向 
量 机 。 

我 们 采用 ASM 模型 对 每 个 可 能 的 行人 位 置 进行 测试 ,不管 图 像 中 的 污 损 部 位 
是 否 可 能 包含 一 个 行人 。 我 们 的 ASM 实现 紧 跟着 Cootes 在 参考 文献 [123] 中 所 
描述 的 方法 。 在 我 们 的 实验 中 一 个 行人 外 形 轮廓 被 表示 成 一 个 包含 23 个 形状 点 
M,=(%,, y, nen X35 Ya) 的 模型 。 当 外 形 轮 廊 按 顺 时 针 方 向 横 切 时 ， 定 义 模 
型 点 的 局 部 角度 d 为 它 右边 顶点 的 走向 。 来 自 实际 样本 的 130 个 形状 数据 库 被 用 
于 训练 ASM。 在 模型 中 使 用 五 个 基本 的 特征 外 形 轮廓 ， 在 这 个 五 维特 征 空间 内 的 
训练 样本 所 覆盖 的 体积 定义 了 所 有 新 近 检 测 到 的 形状 的 范围 。 使 特征 空间 中 的 
ASM 坐标 落 入 指定 的 最 大 欧 氏 距离 范围 内 (这 是 到 最 可 能 训练 样本 点 的 距离 )， 从 
而 保证 模型 只 会 变形 为 和 形状 训练 集 相 一 致 的 形状 。 

由 直方 图 特征 向 量 求 得 一 个 描述 ， 用 于 刻画 每 一 个 行人 。 这 种 描述 作为 帧 间 个 
体 识别 的 方法 ， 用 于 检测 遮挡 或 消失 的 行人 。 在 这 种 情况 下 ， 通 过 Kalman 滤波 器 
推测 出 已 知 轨 迹 的 短 时 路 线 ， 来 填充 检测 到 的 这 些 空白 间隙 。 最 后 ， 利 用 虚拟 门槛 
和 简单 的 轨迹 启发 式 方法 完成 对 过 往 行人 的 计数 。 追 踪 / 计 数 算法 总 结 如 下 : 

(1) 计算 得 到 一 个 简单 的 背景 模型 ; 

(2) 在 前 景 外 形 轮廓 图 内 生成 HOG 候选 人 ; 

(3) 用 ASM 移 除 伪 候 选 人 ， 从 而 产生 新 的 行人 候选 人 ; 

(4) 把 第 (3) 步 和 之 前 视频 帧 中 出 现 的 那些 重生 外 形 轮廓 进行 合并 ，; 

(5) 计算 剩余 外 形 轮廓 的 直方 图 特征 ; 

(6) 对 于 每 个 ASM 外 形 轮 廊 ; 

CD 使 用 KLT 运动 信息 或 者 运动 估计 把 外 形 轮廓 投影 到 下 一 帧 图 像 中 ; 

© 在 步骤 中 的 预测 区 域内 ， 针 对 被 预测 的 外 形 轮 廓 ， 找 到 最 相似 直方 图 特 征 
的 向 量 。 把 不 匹配 的 外 形 轮 廓 保留 在 被 预测 的 位 置 ; 

O 把 步 又 @ 中 的 结果 和 步骤 中 中 的 候选 人 合并 从 而 减少 元 余 外 形 轮廓 的 数量 ; 

D 在 步骤 中 中 指定 的 位 置 ，ASM 把 上 一 帧 中 初始 外 形 轮 廓 模型 进行 匹配 
新 的 外 形 轮廓 只 允许 和 上 一 帧 有 轻微 的 差别 。 
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(7) 把 新 的 外 形 轮廓 位 置 连接 到 各 自 的 轨迹 中 

(8) 步骤 (3) 中 的 行人 候选 人 开始 新 的 轨迹 追踪 ; 

(9) 去 除 预测 超过 8 次 的 轨迹 。 

6.3.2.2 计数 性 能 的 统计 分 析 

对 上 述 算法 的 计数 精确 性 ， 我 们 进行 了 全 面 的 统计 分 析 。 以 图 6. 2 中 室内 地 下 
场景 为 例 ， 给 出 了 相应 的 结果 ， 这 里 对 两 个 上 行 扶梯 路 径 上 的 行人 进行 计数 。 

图 6. 3a 评估 了 在 工作 日 上 午 8 ~9 点 之 间 一 个 小 时 内 的 计数 结果 。 人 工 计数 
(可 靠 ) 已 经 从 一 个 视频 注释 软件 中 获得 。 计 数 的 累积 和 说 明了 自动 计数 完全 地 偏 
高 估计 。 图 6. 3b 是 约 20s 累计 时 间 段 内 人 工 计 数 和 自动 计数 的 散 点 图 ， 并 给 出 相 
应 的 线性 回归 。 图 6. 3c 是 大 约 120s 累计 时 间 段 的 结果 。 有 趣 的 是 ， 两 组 累计 回归 
线 的 斜率 大 约 都 是 89% ， 这 说 明 在 两 个 计数 时 间 段 内 ， 自 动 计 数 方法 以 相同 的 程 
度 完全 过 高 估计 了 真实 人 数 。 事 实 上 ， 对 于 所 有 其 他 的 时 间 段 也 存在 很 强 的 线性 相 
关 性 ， 且 和 斜率 处 于 很 小 的 变化 范围 。 

图 6.3d 给 出 了 对 线性 模型 进行 交叉 验证 的 结果 : 5096 的 数据 用 来 建立 模型 ， 
剩 下 的 5096 的 数据 用 来 做 测试 。 平 均 绝 对 误差 随 着 计数 时 间 的 增加 而 减少 ， 当 累 
计时 间 为 240 秒 的 时 候 ， 达 到 10% 。 相 对 于 更 长 的 累计 时 间 ， 一 小 时 内 有 限 的 人 
工 标注 数据 并 不 能 产生 有 统计 意义 的 结果 。 尽 管 如 此 ， 图 6. 3a 中 的 计数 实例 表明 , 
如 果 把 矫正 因子 0.89 用 于 自动 计数 的 结果 中 ,在 30 分 钟 的 计数 间隔 内 ， 其 平均 绝 
对 误差 能 减少 到 5% ， 一 个 小 时 后 能 减少 到 2% 。 在 相同 的 系统 条 件 下 ， 我 们 也 评 
估 了 一 个 完全 不 同 的 室外 场景 ， 证 明了 本 文 提出 的 计数 方法 是 可 靠 的 ， 更 多 细节 见 
参考 文献 [495], 

6.3.2.3 ”在 嵌入 式 系统 上 运行 算法 

人 群 追踪 算法 的 实现 ， 最 终 必然 会 在 智能 摄像 机 上 实时 运行 。 目 前 ， 尽 管 算法 
的 所 有 部 分 还 不 能 实时 运行 ， 但 是 部 分 算法 模块 可 以 在 智能 摄像 机 原型 组 件 上 运 
行 。 这 一 节 对 算法 的 实现 性 能 和 在 VC4465 智能 摄像 机 上 运行 的 瓶颈 作出 估计 。 行 
人 追踪 算法 的 主要 部 分 就 是 KLT 运动 分 析 ，HOG 行人 检测 阶段 以 及 ASM 验证 阶 
段 。 对 于 一 个 典型 的 实时 场景 ， 每 个 算法 的 运行 时 间 可 以 从 以 下 几 个 方面 进行 
估计 : 

(D 帧 分 辨 率 : 384 x288 像素 ; 

© 帧 速率 :; 15 Ws; 

© 每 帧 追踪 20 MTA; 

D 每 帧 测试 1500 个 HOG 检测 器 窗口 ; 

© 测试 HOG 检测 器 在 第 一 阶段 产生 的 20 个 结果 ， 对 每 个 结果 ，ASM 执行 四 
次 迭代 ; 

© 每 帧 追踪 20 个 行人 ， 对 每 个 行人 ，ASM 模型 执行 8 次 迭代 。 

Æ 6.3.1 节 讲 述 了 KLT 点 追踪 器 的 实时 实现 。 这 种 实现 能 直接 在 智能 摄像 机 
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c) d) 
图 6.3 对 图 6. 2 地 下 场景 中 计数 精度 的 统计 评估 
a) 1 小 时 内 的 人 工 计数 、 自 动 计数 、 矫 正 后 计数 b) 20s 累计 时 间 段 内 ， 自 动 计数 与 人 工 计数 的 线性 回归 
c) 120s 累计 时 间 段 内 ， 自 动 计数 与 人 工 计 数 的 线性 回归 d) 线性 模型 的 验证 









































EEH, HOG 行人 检测 器 已 经 完全 实现 了 定点 运算 。 对 于 块 累 积 和 归 一 化 的 单元 ， 
计算 中 小 数 点 是 固定 的 ， 使 用 32bit 运算 ， 约 Obit 的 精度 表示 有 效 小 数 部 分 。 为 了 
加 快 特征 的 计算 ,考虑 到 内 存 并 不 是 摄像 机 的 瓶 席 ,实现 了 9 种 直方 图 积分 (每 
种 32bit)。 所 以 后 续 单 元 的 计算 都 是 在 这 些 图 像 上 进行 的 ， 使 得 HOG 检测 需 不 取 
决 于 检测 需 窗 口 的 大 小 。 

当 设计 ASM 的 应 用 实现 时 ， 关 键 是 确保 代码 能 长 期 适合 于 定点 结构 。Sobel 算 
法 用 于 梯度 和 方向 计算 ( 它 的 输出 也 直接 用 于 HOG 过 程 )， 并 且 所 有 耗 时 的 数学 
运算 都 被 查找 表 取 代 。 

表 6.4 给 出 了 各 个 主要 处 理 阶 段 花费 的 时 间 (包括 估计 的 时 间 和 基准 时 间 )。 
由 于 每 秒 只 能 处 理 6 帧 图 像 ， 行 人 追踪 器 的 实现 并 不 具备 实时 性 能 。 最 慢 的 算法 显 
然 是 ASM， 它 处 理 每 帧 大 概 用 时 96ms。 为 了 使 智能 摄像 机 中 实现 的 速度 提高 ， 可 
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以 采取 以 下 措施 : 

CD 改进 ASM 的 实现 ， 一 些 部 分 仍然 使 用 浮 点 运算 ， 可 提高 大 约 30% 的 速度 ; 

© 使 用 少量 的 ASM 的 迭代 ， 对 每 个 行人 ， 用 6 次 迭代 代替 8 个 迭代 ， 可 提高 
25% 的 速度 ; 

© 进一步 改进 KLT 的 实现 ， 可 提高 20% 的 速度 。 

表 6.4 ”人群 追踪 核心 算法 的 耗 时 结果 一 一 每 帧 平均 20 个 行人 ， 时 间 单 位 为 ps。PC RHE 
基于 2.0G 的 PC X86 进行 测量 ，SC 时 间 (估算 ) 基于 1G 的 VC4465 智能 摄像 机 进行 测量 。 

总 的 SC 时 间 / 帧 所 在 列 给 出 了 基于 上 述 运 行 时 间 要 求 的 每 种 检测 算法 的 运行 时 间 




















(单位 : us) 
算法 PC 时 间 SC 时 间 (估计 ) # 运 行 次 数 / 帧 总 的 SC 时 间 / 帧 
BG model 0. 500 2. 000 1 2 
Sobel 5. 000 10. 000 1 10 
KLT 10. 000 40. 000 1 40 
ASM 0. 100 0. 400 240 96 
HOG 0. 200 0. 008 1500 12 
Total 160 














考虑 到 提高 速度 的 各 种 可 能 性 ， 我 们 估 测 在 VC44 智能 摄像 机 上 ， 视 频 序 列 中 
平均 每 帧 图 像 包含 20 个 行人 ,行人 计数 应 用 程序 应 该 以 10 Wis 的 速度 运行 。 前 面 
已 经 定义 了 理想 的 计数 性 能 ， 我 们 估 测 的 这 一 速度 低 于 理想 计数 性 能 所 要 求 的 最 低 
帧 率 ， 但 对 于 某 些 应 用 已 经 足够 了 。 为 进一步 显著 地 提高 性 能 ， 只 有 去 修改 和 改进 
TEASE Y, 
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Johannes Fürtler, Ernst Bodenstorfer, Michael Rubik, Konrad J. Mayer, 
Jórg Brodersen, and Christian Eckel 


摘要 : 本章 主要 介绍 了 一 种 高 性 能 智能 线 阵 扫描 摄像 机 ， 它 可 以 用 于 高 等 级 印 
刷 业 中 的 质量 检测 系统 。 这 样 的 检测 系统 具有 非常 高 的 检测 分 辩 率 ( > 100km ) , 
且 能 达到 20m/s 的 生产 速度 ， 可 以 满足 许多 需求 。 连 续 处 理 的 数据 量 的 总 速率 达 
到 每 秒 几 千 兆 比特 。 在 系统 成 本 合理 的 前 提 条 件 下 ， 摄 像 机 的 高 性 能 与 很 多 关键 的 
设计 因素 有 关 ， 如 : 分 辨 率 、 速 度 、 和 吞吐 量 和 检测 质量 等 。 智 能 摄像 机 解决 了 高 速 
成 像 仪 和 远程 图 像 处 理 系统 之 间 的 瓶颈 问题 。 强 大 的 处 理 单元 被 集成 在 摄像 机 中 ， 
如 高 端 可 编程 的 门 阵列 和 数字 信号 处 理 器 。 就 精确 度 和 经 济 适用 性 方面 而 言 ， 这 种 
摄像 机 表现 出 卓越 的 检测 能 力 。 本 章 中 将 介绍 其 有 关 结 构 组 成 ， 内 容 包括 多 次 上 曝光 
方法 〈 基 于 面 扫描 成 像 设 计 高 速 线 扫描 摄像 机 ) ， 高 吞 叶 量 的 图 像 处 理 ， 高 级 别 的 
图 像 处 理 以 10Gbit/s 光纤 以 太 网 的 摄像 机 接口 。 最 后 总 结 了 高 性 能 智能 摄像 机 领 
域 的 发 展 趋 势 。 

关键 词 : 机 器 视觉 ; 表面 检测 ; 实时 图 像 处 理 ; FPGA (现场 可 编程 门 阵列 ) ; 
DSP (数字 信号 处 理 器 ); SoC (片上 系统 ); 多 次 曝光 ; MARMER; 10Gbit/s 
以 太 网 ; 光纤 接口 























7.1 简介 


在 过 去 的 几 十 年 里 ， 智 能 摄像 机 已 经 由 简单 设备 发 展 到 今天 的 复杂 视觉 系统 
( 见 第 1 章 ) 。 人 们 已 经 意识 到 了 它 的 广泛 应 用 。 基 于 智能 摄像 机 的 产品 遍布 于 各 
种 不 同 的 市 场 领 域 ， 包 括 消 费 类 电子 产品 、 视 频 监 控 ( 见 第 17 章 ) 、 生 物 测 量 、 
传输 和 机 器 视觉 (ULES 16 ~19 章 ) AIA 在 2008 年 做 的 市 场 调查 揭示 了 在 机 器 视 
觉 市 场 中 ， 智 能 摄像 机 是 最 快 的 增长 部 分 也 是 不 足 为 奇 的 。 因 此 ， 智 能 摄像 机 被 认 
为 是 整个 机 器 视觉 领域 的 技术 驱动 者 。 

本 章 展示 了 一 种 高 性 能 智能 摄像 机 (HPSC) ， 它 已 经 应 用 于 印刷 检测 领域 中 。 
印刷 检测 系统 在 基板 上 进行 自动 质量 估计 ， 如 纸 、 金 属 稍 和 塑料 稍 。 它 们 当中 ,， 存 
在 一 类 可 以 确保 达到 最 好 的 印刷 质量 的 产品 。 例 如 钞票 和 邮票 的 印刷 安全 性 。 一 个 
国家 的 钞票 质量 直接 关系 到 假 钞 问题 及 货币 的 稳定 问题 。 另 一 个 例子 是 消费 产品 的 
包装 ， 包 装 的 感 党 和 产品 的 质量 有 很 大 的 关系 ， 尤 其 是 一 些 知名 的 品牌 。 这 两 个 例 
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子 都 表明 ， 一 些 企业 有 强烈 的 动机 要 求 产品 印刷 质量 完美 ， 男 外 ， 还 需要 提高 产 
来 降低 单价 。 

如 今 ， 自 动 质量 检测 系统 可 以 解决 这 个 问题 ,然而 ， 关 于 上 文 提 到 的 应 用 ， 由 
TER, 考虑 到 检测 准确 度 和 经 济 的 可 行 性 ， 也 就 是 分 辨 率 、 人 处 理 速 度 和 吞吐 
量 ， 这 仍然 是 个 很 大 的 挑战 。 

典型 的 应 用 就 是 运用 大 量 的 摄像 机 (超过 12 个 ) 来 获取 印刷 品 的 图 像 。 在 超 
过 100pm/ 像 素 的 空间 分 辩 率 和 达到 20m/s 的 传输 速度 情况 下 ， 数 据 速率 可 以 很 容 
易 地 达到 几 Gbit/s KAEH, ls 之 内 ， 每 个 摄像 机 都 可 以 传输 存储 在 一 个 大 容量 
磁盘 里 的 超大 量 的 数据 。 与 普通 的 智能 摄像 机 相 比 ， 实 时 充分 地 处 理 这 么 大 数据 的 

能 力 是 HPSC 的 一 个 主要 特点 。 

基于 图 像 数 据 流 ， 图 像 处 理 单元 的 任务 是 质量 判断 ， 极 端 地 说 ， 输 入 数据 不 得 
不 减少 到 Ibit: 检测 印刷 质量 是 可 以 接受 ， 还 是 被 拒绝 。 

在 大 多 数 情况 下 ， 图 像 处 理 单元 包括 大 量 的 连续 处 理 过 程 。 主 要 目标 是 抑制 不 
相关 的 信息 或 提取 相关 信息 。 不 需要 的 信息 可 以 丢弃 ， 以 减少 需要 处 理 的 输入 数 
据 。 然 而 ， 在 某 些 情况 下 ， 不 得 不 在 减少 有 效 数 据 前 增加 信息 。 

为 了 处 理 采 集 到 的 大 量 图 像 数 据 ， 需 要 将 图 像 处 理 任务 转移 到 智能 摄像 机 上 ， 
而 不 需要 再 将 数据 从 智能 摄像 机 传输 到 一 个 独立 的 更 高 级 的 处 理 设备 上 ， 从 而 减 小 
了 数据 的 带宽 要 求 。 智 能 摄像 机 原则 上 人 允许 系列 集成 ， 集 成 度 可 以 从 低级 图 像 处理 
到 完整 的 监测 系统 ， 该 系统 只 传输 1bit 来 表示 最 终 信 息 。 

从 本 质 上 说 ,成 像 设 备 一 方面 需要 许多 部 件 ( 相机、 光纤 、 灯 光 和 机 器 构件 ) 
相互 合作 ， 男 一 方面 需要 一 定 的 制造 工艺 。 因 此 ,为 了 达到 最 佳 效 果 ， 质 量 检测 系 
统一 定 要 根据 特定 的 应 用 来 量 身 定制 。 所 以 ， 针 对 如 何 设计 或 如 何 比较 高 性 能 摄像 
机 这 一 问题 ， 制 定 一 个 的 通用 规则 是 困难 的 ， 甚 至 是 不 可 能 的 。 

本 章 旨 在 展现 一 种 集成 在 小 型 摄像 机 外 壳 中 的 强大 视觉 系统 :5%] ， 并 提出 了 高 
































性 能 智能 摄像 机 未 来 的 发 展 趋势 。 项 目 研 究 结 果 表 明 ， 可 以 利用 大 量 互联 的 高 性 能 
智能 摄像 机 来 代替 传统 的 检测 系统 (摄像机 通过 高 带宽 链 路 与 远程 图 像 处 理 单元 


相连 接 ) 。 因 此 ， 当 更 多 来 自 图 像 传 感 需 的 数据 可 以 被 处 理 的 时 候 ， 检 测 准 确 度 就 
可 以 提高 了 ， 同 时 ， 系 统 成 本 也 就 降下 来 了 。 

为 了 尽 可 能 地 降低 研发 风险 ， 工 程 划分 为 四 个 阶段 。 首 要 目标 是 研究 基于 FP- 
GA 和 DSP 技术 的 检测 系统 的 可 行 性 。 在 2006 年 出 现 了 一 个 原型 "1 。 第 二 阶段 
(2007 年 ) ， 一 个 智能 的 高 速度 彩色 线 阵 扫 描 摄 像 机 被 研发 出 来 ”1 。 第 三 阶段 
(2008 年 完成 ) Camera Link TM ?* 3E H H 10Gbit/s 的 光纤 以 太 网 接口 代替 ; 外 围 
的 FPGA 资源 也 被 集成 进去 。 最 后 一 个 阶段 于 2009 年 完成 ， 为 了 适应 摄像 机 外 壳 
而 缩小 了 DSP 模块 的 原型 。 本 章 扩展 了 以 前 出 版 的 文章 ， 增 加 了 最 后 两 个 阶段 的 
最 新 进展 。 

7. 2 节 将 介绍 关于 自动 印刷 检测 系统 的 许多 重要 方面 。 为 了 具体 的 应 许多 

















第 7 章 高 性 能 智能 摄像 机 97 





设计 都 有 折 中 考虑 ， 并 总 结 了 现代 摄像 机 的 技术 。 定 义 了 高 性 能 这 个 术语 ， 它 仪 仅 
在 具体 的 应 用 环境 中 才 有 具体 意义 。 现 代 摄 像 机 是 一 种 线 扫描 设备 ，7. 2 节 简 要 讨 
论 了 线 扫描 操作 规则 以 及 高 速 线 扫描 应 用 中 CMOS 传 感 吉 技术 的 优点 。 

7.3 节 讨 论 了 在 HPSC 中 运行 的 图 像 处 理 算法 。 介 绍 了 多 次 曝光 (Multiple Ex- 
posure TM, MX) 方法 ， 这 种 方法 使 得 基于 面 扫 描 图 像 传 感 器 来 设计 高 速 线 扫描 摄 
像 机 成 为 可 能 ， 是 摄像 机 架构 的 关键 要 素 。 为 了 强调 在 HPSC 中 进行 的 复杂 的 图 像 
处 理 (主要 集中 在 FPGA 高 吞吐 计算 量 上 ) ， 对 用 于 印刷 检测 任务 的 图 像 检测 方法 
做 了 完整 地 描述 。 

在 7.4 节 关 注 的 是 HPSC 的 实现 。 并 分 为 硬件 和 软件 两 部 分 讨论 了 图 像 处 理 





最 后 ，7. 5 节 对 高 性 能 智能 摄像 机 的 发 展 做 了 展望 。 
7.2 基本 部 分 


在 工业 印刷 检测 领域 ， 从 几 个 视角 和 不 同 的 光谱 敏感 度 (包括 颜色 、 红 外 线 、 
紫外 线 ) 采集 到 的 图 像 要 满足 质量 检测 目标 。 印 刷 检 测 系统 的 基本 原理 在 7. 2. 1 中 
做 了 介绍 。 

7. 2. 2 节 介 绍 了 现成 的 摄像 机 远 远 不 能 满足 高 端 工业 印刷 检测 的 要 求 。 所 以 ， 
在 印刷 检测 领域 中 定义 了 高 性 能 这 个 术语 。 

线 阵 扫描 摄像 机 的 操作 原理 如 HPSC 在 7.2.3 中 做 了 描述 。 在 7.3.1 介绍 了 时 
间 延 迟 积分 机 制 ， 它 是 MX 方法 的 基础 。 

MX 方法 利用 了 CMOS 成 像 仪 的 独特 特点 ; 在 7.2.4 中 总 结 了 CMOS 成 像 系统 
的 最 主要 的 特点 。 


7.2.1 用 于 印刷 检测 的 能 入 式 视觉 系统 


不 同 种 类 的 印刷 缺陷 包括 缺 版 、 墨 班 、 污 点 和 划 痕 等 。 岁 7. 1 给 了 一 个 例子 。 
为 了 根据 图 像 处 理 方法 自动 检测 这 些 缺 陷 ， 一 种 可 能 的 解决 方案 是 中 图 像 采 集 ; 
@ 特 征 提 取 ， 例 如 ， 颜 色 分 离 或 者 图 像 边 缘 增 强 ;，(3) 参 考 特征 集 检测 特征 ， 特 征集 
是 从 可 接受 的 印刷 图 像 中 获取 ， 称 之 为 训练 集 或 主 图 像 集 。 

大 量 的 样本 是 为 了 补偿 印刷 过 程 本 身 回 有 的 一 些小 的 变异 ， 这 样 的 印刷 结果 是 
可 以 接受 的 。 另 外 有 一 些 人 眼 不 能 感知 的 缺陷 也 是 可 以 容忍 的 。 更 进一步 说 ， 检 测 
系统 应 该 对 于 由 基板 扩展 或 收缩 带 来 的 小 变形 是 不 敏感 的 。 但 是 严重 的 变形 是 可 以 
识别 出 来 的 。 

在 印刷 缺陷 检测 中 要 区 分 不 同 颜色 之 间 的 差异 ， 这 关系 到 人 有 眼 对 墨迹 的 变化 而 
引起 亮度 渐变 的 容忍 限度 。 如 果 没 有 超过 一 定 的 界限 ,这 种 变化 波动 是 可 以 接受 
的 。 男 一 方面 ， 人 眼 对 细 纹 和 划 痕 是 很 敏感 的 。 媚 版 印刷 过 程 中 一 个 普通 的 印刷 故 
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图 7.1 典型 的 印刷 缺陷 。 澳 大 利 亚 邮 票 “200. Geburstag von 
Johann Nestroy" 和 “Weihnachten 2001 " 
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说 ， 刊 墨 刀 线 是 一 个 典型 的 易 被 人 眼 检 测 的 例子 ， 然 而 如 果 机 器 检测 的 话 ， 是 很 困 
难 的 并 且 需 要 很 高 的 图 像 分 辨 率 。 因 此 ， 检 测 出 这 些 因 图 像 亮度 值 发 生 局 部 变化 导 
致 的 结构 化 偏差 非常 重要 ， 因 为 这 种 偏差 可 以 由 边缘 滤波 器 增强 。 

图 7. 2a 展示 了 经 典 的 纸张 印刷 检测 系统 的 主要 部 分 ， 如 钞票 或 者 邮票 。 印 刷 
品 通过 输送 机 构 进行 传 给， 因此 线 阵 扫描 机 可 以 用 来 采集 图 像 。 获 得 的 图 像 数据 被 
输入 到 图 像 处 理 系统 (Image Processing System, IPS) 中 ， 它 可 以 实时 计算 将 次 品 
从 高 质量 产品 中 分 离 出 来 。 通 常 ， 这 个 处 理 系统 距离 高 速 摄像 机 超过 10m。 机 器 以 
10m/s 或 者 更 快 的 速度 运行 。 为 了 获得 图 像 要 求 空间 分 辨 率 低 至 100pm， 照 相机 
的 行 速率 必须 在 100kHz 或 以 上 ， 因 此 ， 检 测 每 毫米 宽度 的 表面 ， 相 应 的 图 像 数 据 
将 达到 每 秒 几 兆 字 节 (100kHz' 10 像素 /mm : 30bit/ 像 素 . 摄像 机 的 数目 ) 。 











图 7.2 经 典 系统 和 基于 智能 摄像 机 的 解决 方案 
a) 经 典 系统 : 摄像 机 和 远程 图 像 处 理 系统 b) 基于 智能 摄像 机 的 解决 方案 


图 7. 2 中 ， 因 为 需要 传输 大 量 的 原始 图 像 数据 ， 传 统 图 像 处 理 系统 的 瓶颈 是 摄 
像 机 和 图 像 处 理 单元 之 间 的 链 路 。 在 某 些 情况 下 ， 图 像 处 理 单元 的 计算 能 力 由 大 量 
的 高 性 能 DSP 提供 ， 它 们 之 间 通 过 高 速度 数据 通信 信道 连接 。 

为 了 处 理 来 自 图 像 传感器 的 海量 数据 ， 需 要 将 图 像 处 理 过 程 移 和 人 摄像机， 从 而 
减少 大 量 需 要 传输 的 数据 。 此 外 ， 就 人 类 感知 的 质量 而 言 ， 摄 像 机 应 该 支持 高 分 辨 
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率 检测 。 

HPSC 以 早期 描述 的 同类 摄像 机 模块 为 基础 “1。 然 而 ,外 围 处 理 电 路 和 接 
口 已 经 直接 集成 到 了 摄像 机 中 。 这 就 是 图 7. 2 中 描述 的 系统 构架 ， 其 中 所 有 的 处 理 
单元 都 被 集成 到 了 摄像 机 中 。 多 个 摄像 机 通过 开关 单元 进行 连接 。MCU 需要 与 印 
刷机 或 分 类 机 进行 连接 。 这 种 系统 架构 可 以 处 理 更 多 的 图 像 数据 并 提高 检测 精度 。 
此 外 ， 部 件 的 集成 也 降低 了 系统 的 成 本 。 


7.2.2 定义 


市 场 可 以 提供 各 种 各 样 的 智能 摄像 机 ， 包 括 用 于 表面 检测 的 智能 摄像 机 ， 例 
如 ， 参 考 文献 [53, 116, 568, 25], ， 如 果 一 个 智能 摄像 机 完成 了 一 个 既定 任务 ， 
显然 它 能 提供 足够 的 性 能 ， 但 是 这 时 能 称 它 为 高 性 能 摄像 机 吗 ? 

通过 AIA 研究 ， 在 2007 年 北美 出 售 的 所 有 智能 摄像 机 中 ， 只 有 0. 8% 安装 着 
能 每 秒 处 理 500 帧 或 更 多 的 图 像 传 感 器 ， 然 而 98% 的 摄像 机 只 能 处 理 30 ~ 60 
帧 /s。 售 出 的 智能 摄像 机 中 只 有 19.0% 是 线 扫 描 设 备 。 此 外 ， 彩 色 摄 像 机 占 了 
33. 6% 的 市 场 份额 。 因 此 HPSC 市 场 狭窄 。 然 而 , 今天 先进 的 前 缘 技 术 可 能 是 明天 
大 众 市 场 中 的 基石 。 

在 计算 机 系统 环境 中 ， 经 常 以 简单 的 指标 来 描述 其 性 能 ， 如 时 钟 速率 或 者 每 秒 
的 运算 量 。 在 更 高 的 层面 上 ， 基 准 测 试 软件 可 用 一 个 指标 来 描述 一 个 计算 机 的 系 
统 。 然 而 ， 如 果 一 个 基准 测试 软件 不 能 反映 具体 应 用 的 程序 流程 ， 那 么 所 测试 的 结 
果 就 会 形成 误导 。 

同样 ， 一 个 智能 摄像 机 可 以 很 好 地 执行 一 个 特定 的 机 器 视觉 任务 , 但 是 别 的 任 
务 执行 得 很 差 。 从 我 们 的 观点 看 ， 智 能 摄像 机 的 性 能 应 该 在 具体 的 应 用 环境 中 来 定 
义 。 显 然 ， 为 评估 选 定 的 特征 集 大 多 数 情况 下 取决 于 特定 的 应 用 。 所 以 ， 很 难 比 较 
各 种 智能 摄像 机 ， 除 了 在 一 些 极其 罕见 的 情况 下 ， 智 能 摄像 机 有 相同 的 用 途 。 因 
此 ， 在 参考 文献 中 很 少 提 到 高 性 能 摄像 机 ， 例 如 ， 参 考 文献 [388, 389], ， 在 商业 
中 提 到 的 高 速度 智能 摄像 机 也 是 这 样 的 ， 例如， 视觉 装置 VC44xx 系列 和 光电 
SM2- D1024- 80 ， 是 不 能 与 HPSC 比较 的 。 

高 性 能 是 特定 于 HPSC 的 术语 ， 它 不 仅 指 在 特定 应 用 中 的 性 能 卓越 (参照 7.3 
节 )， 而 且 也 指 无 关乎 特定 应 用 的 其 他 高 级 性 能 卓越 。 例 如 ，HPSC 是 2007 年 市 场 
上 最 快 的 彩色 线 扫描 摄像 机 (第 一 阶段 ) ， 达 到 100kHz 线 扫 描 速 率 。 直 接 把 多 次 
曝光 技术 集成 到 摄像 机 中 可 获得 到 更 高 的 线 扫描 速率 。 


7.2.3 线 阵 扫描 摄像 机 


线 阵 描 摄像 机 在 印刷 品质 量 检 测 领域 扮演 着 重要 的 角色 '” 。 线 阵 扫 措 摄像 机 
的 优点 是 可 以 连续 扫描 物体 。 另 外 ， 与 面 阵 扫 描 摄像 机 的 二 维 视 场 照 明 相 比 ， 单 行 
照明 更 容易 实现 。 
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过 去 ， 主 流 的 线性 扫描 摄像 机 是 基于 CCD 图 像 传感器 的 2 。 近 来 ， 发 明了 越 
来 越 多 的 基于 互补 金属 氧化 物 半 导体 (CMOS) 图 像 传感器 的 线 扫描 摄像 
pnt! 。 印 刷 品 检测 应 用 中 ， 通 常 要求 使 用 彩色 摄像 机 。 彩 色 线 扫描 摄像 机 
中 通常 使 用 三 种 方式 : 中 分 光 器 和 三 色 传 感 器 ; @ 三 线 传 感 器 ; OEA IERA 
列 中 ， 滤 色 镜 以 一 行 或 两 行 间隔 交替 布置 (马赛 克 滤 镜 )。 

我 们 知道 ， 通 过 棱镜 方法 使 用 分 光 吉 的 摄像 机 ， 有 最 高 的 色彩 保 真 度 。 但 是 ， 
较 之 其 他 方法 ， 高 质量 的 滤 色 镜 (大 多 为 干涉 滤 色 镜 ) 、 三 个 独立 的 图 像 传感器 和 
精密 的 机 械 调整 也 就 带 来 了 更 大 的 体积 和 更 高 的 成 本 。 

三 线 摄 像 机 的 成 像 传感器 ， 每 三 个 像素 行 中 的 一 行 只 对 一 种 颜色 的 光谱 带 敏 
感 ， 如 Chromasen 公司 的 Aleos 摄像 机 03] ， 或 是 Dalsa 公司 的 Piranha Color, pH 
摄像 机 来 补偿 三 幅 图 像 间 的 时 延 。 这 种 摄像 机 最 主要 的 优点 是 价格 便宜 。 

基于 线 扫描 摄像 机 的 马赛 克 滤 镜 ， 类 似 于 使 用 Bayer 滤波 器 .的 面 阵 扫描 摄 
像 机 。 行 内 排列 有 不 同 颜色 敏感 度 的 像素 点 ， 如 Basler 公司 的 sprint 9L 7, He 
后 ， 摄 像 机 产生 的 部 分 彩色 分 量 通过 相 邻 像素 间 的 插值 来 得 到 。 

图 像 可 以 通过 行 触发 信号 触发 摄像 机 来 获取 。 根 据 拍摄 目标 速度 ， 轴 编码 器 能 
提供 该 触发 信号 。 每 一 个 触发 脉冲 作用 下 ， 摄 像 机 产生 一 维 的 一 行 像素 。 当 目标 经 
过 摄像 机 镜头 时 ， 重 复 地 触发 可 形成 被 检测 目标 的 二 维 图 像 。 

图 7.3 说 明了 速度 w、 传 输 方向 上 固定 空间 分 辨 率 d、 行 触发 频率 fi 之 间 的 紧 
ZR, HEP f =wd。 垂 直 于 传输 方向 的 空间 分 辨 率 ， 取 决 于 光学 系统 成 像 的 比 
例 和 像素 点 大 小 ， 其 中 d 是 由 轴 编 码 器 的 分 辩 率 定义 的 。 

实际 上 ， 曝 光 时 间 是 固定 的 参数 ， 且 会 设置 为 最 大 的 可 能 值 ， 但 必须 小 于 最 小 
的 行 触发 周期 1/ 访 。 另 一 方面 ， 曝 光 时 间 不 是 
完全 任意 的 参数 。 要 想 在 传输 方向 上 获得 更 好 
的 分 辨 率 ， 更 高 的 传输 速度 ， 只 有 减 小 曝光 时 
间 。 显 而 易 见 ， 因 传感器 像素 灵敏 度 受 限 以 及 
照度 不 能 充分 发 挥 作用 将 会 导致 一 些 相 关 的 
问题 。 

工业 印刷 检测 中 使 用 100kHz 的 行 速率 ， 
会 导致 曝光 时 间 低 于 10ks。 和 通常 曝光 时 间 
在 训 秒 级 的 消费 性 摄像 机 相 比 ， 这 个 曝光 时 间 非 常 得 。 因 此 ， 使 用 了 数 十 万 勒 克 司 
的 照明 强度 。 另 外 ， 如 图 7.3 所 示 的 剖面 图 所 描述 ， 光 线 被 集中 在 了 一 个 狭窄 区 
域 。 尽 管 如 此 ， 信 号 电 平 非常 低 ， 品 声 变 成 了 制约 因素 。 

使 用 基于 CCD 的 TDI (Time Delay Integration) 摄像 机 05029 是 增加 光敏 度 和 改进 
图 像 质 量 的 一 个 解决 办 法 。 正 如 面 阵 扫描 成 像 传感器 ，CCD TDI 成 像 传感器 只 有 一 - 
些 行 (多 阶段 ) 用 于 图 像 获 取 。 进 一 步 ， 这 些 行 在 积累 光 生 电荷 的 同时 ， 以 与 物 
体 同 样 的 运动 速率 逐 行 切 换 。 最 后 ， 经 历 几 个 曝光 周期 后 产生 了 累积 电荷 ， 且 没有 


















































图 7.3 线 扫描 摄像 机 的 原理 
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降低 分 辨 率 ， 没 有 产生 运动 模糊 。 

其 优点 在 于 ，TDI 改善 了 信 噪 比 5 。 信 号 按 比 例 累 积 ， 累 积 次 数 为 N。 另 一 
方面 ， 与 噪声 无 关 的 信号 分 量 按 比例 VN 进行 累积 。 因 此 ， 可 N 阶段 累积 电荷 的 
TDI 摄像 机 具有 信 品 比 改善 因子 VN。 

大 多 数 TDI 摄像 机 为 单 色 且 基 于 CCD 成 像 传 感 器 。 近 年 来 ， 人 们 尝试 将 TDI 
原理 应 用 于 CMOS 传感器 :5321 。 主 要 原因 包括 ， 成 像 传感器 中 CMOS 制造 技术 的 改 
进 、 更 好 地 利用 现 有 的 CMOS 工艺 流程 和 最 终 的 制造 成 本 。 在 7.3. 1 节 中 ， 描 述 了 
怎样 用 MX 方法 (SEAT. CCD-TDI 的 一 种 数字 方法 ) 来 增加 CMOS 传感器 的 光 
fi E 


7.2.4 CMOS 图 像 传感器 


与 CCD 技术 相 比 ，CMOS REI RE ATLA Do 07999 (也 可 参考 第 4、5 
章 )。 使 HPSC 得 以 实现 的 CMOS 技术 有 以 下 几 个 特点 : 中 读 取 任意 区 域 ，@) 简 单 
曝光 控制 ，@ 由 片上 列 并 行 模 - 数 转换 器 带 来 的 高 速度 ; 几乎 没有 像素 有 尝 光 效 
应 和 拖 尾 效应 。 

尤其 独特 的 是 ， 可 任意 读 取 感 兴趣 区 域 ， 等 效 于 减 小 图 像 大 小 ， 从 而 提高 速 
E. 与 曝光 控制 相 结 合 ，MX 方法 基于 面 阵 扫 描 器 件 实现 了 高 速 线 扫描 摄像 机 。 





7.3 数据 处 理 流程 


用 于 印刷 缺陷 检测 的 图 像 处 理 系统 非常 依赖 于 空间 分 辨 率 ， 必 须 适 当地 选择 分 
辨 率 ， 才 能 从 瑕 六 中 可 靠 地 分 辨 出 印刷 品 的 细微 结构 。 因 此 ， 分辩 率 和 生产 速度 决 
定 了 每 秒 必须 获取 和 处 理 的 图 像 数 据 量 。 现 代 图 像 传感器 传输 原始 图 像 数据 的 速率 
超过 1Gbit/s。 在 质量 检测 中 大 规模 处 理 原始 数据 是 不 现实 的 ， 至 少 代价 过 高 。 因 
此 ， 必 须 大 幅 前 减 数 据 。 关 键 在 于 ， 应 提取 出 质量 检测 所 必需 的 信息 。 可 以 舍弃 其 
他 所 有 的 数据 。 但 是 ， 把 必需 信息 分 离 出 来 不 是 一 件 小 事 。 因 此 ， 必 须 权衡 相关 的 
计算 量 、 可 用 资源 和 成 本 等 。 

对 于 MX 方法 实现 的 高 速 印 刷 检 测 ， 我 们 提出 了 一 个 五 步 图 像 处 理 流程 ， 用 来 
获取 原始 图 像 数 据 ， 如 图 7.4: 中 累积 多 次 曝光 的 精确 定时 ; QA BAT; ORE 
提取 ;外 检查 与 参考 图 像 的 侦 差 ;名 印 刷 缺 陷 的 分 析 及 分 类 。 

本 节 介 绍 了 图 像 检 测 流程 中 的 数据 处 理 流程 。 并 行 于 数据 人 处理 流程 ， 同 时 应 该 
有 一 个 控制 流程 。 例 如 ， 参 数 必须 根据 检测 图 像 区 域 来 调整 。 但 是 ， 控 制 流程 问题 
超出 了 本 章 的 范围。 

图 像 检 测 是 一 项 对 计算 要 求 很 高 的 工作 。 与 计算 要 求 相 比 ， 影 响 处 理性 能 的 其 
他 因素 并 不 十 分 重要 。 很 有 必要 延伸 对 图 像 检 测 基本 流程 的 讨论 。 
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原始 数据 增强 后 数据 误差 映射 G9 
结果 






) 特征 提取 全 
Acq. ^. 
累积 数据 打印 问题 列表 


图 7.4 图 像 传 感 融 数据 到 检测 结果 的 图 像 检测 流程 

















7.3.1 多 次 曝光 阶段 


MX 方法 实现 了 基于 CMOS 面 阵 扫描 成 像 传感器 S 的 高 速 线 扫描 摄像 机 。 
MX 算法 将 积累 的 光电 荷 从 CCD- TDI 成 像 传 感 需 转换 到 了 数字 域 。 因 此 ， 用 CMOS 
面 阵 成 像 传感器 得 到 的 图 像 数 据 就 应 该 传输 到 FPGA 中 。 对 于 彩色 成 像 ， 使 用 了 
Bayer 滤波 器 矩阵 o MAJHI Bayer 模板 中 ， 绿 、 红 像素 在 偶数 行 ， 蓝 、 绿 像素 在 
奇数 行 。 

图 7. 5 为 六 幅 顺序 取得 的 局 部 区 域 图 像 (t, ~#% 时 刻 ) 。 被 检测 的 物体 是 打印 在 
一 张 纸 上 的 字母 A， 从 左 向 右 移动 。 在 两 幅 连 续 图 像 之 间 ， 纸 张 正 好 移动 一 个 传 感 
器 行 高 度 的 距离 。 














红 像素 
-偶数 位 置 : 插值 (i) 
-奇数 位 置 : 原始 值 
绿 像素 
-全 部 位 置 : 原始 值 
蓝 像素 


-偶数 位 置 : 原始 值 
-奇数 位 置 : 插值 (i) 
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AL7.5 MX 方法 的 原理 〈 本 例 表 明 ， 基 于 移动 目标 在 二 ~#% 时 刻 的 六 幅 彩色 图 像 ， 
如 何 计 算出 单 像素 的 RGB 颜色， 并 输出 一 个 完整 行 ) 














图 7.5 说 明了 A 的 每 个 像素 点 都 被 扫描 了 六 次 ( 源 自 图 像 传 感 带 六 行 的 输 
出 ) 。 在 Bayer 模板 中 ， 目 标的 每 个 点 由 BG 行 和 GR 行 各 自 采样 三 次 。 最 终 ， 把 每 
个 点 的 三 个 对 应 像素 值 相 加 即 可 。 由 于 G 在 每 个 像素 列 都 存在 ， 所 有 的 绿色 像素 
都 可 以 被 成 像 传 感 带 获取 ， 而 B/R 只 存在 于 偶 / 奇 列 。 缺 失 的 B/R 像素 必须 插值 。 
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这 种 插值 算法 也 被 称 为 彩色 滤波 阵列 去 马赛 克 算 法 。 

每 秒 的 累加 运算 量 等 于 从 图 像 传感器 读 取 的 像素 数 。 例 如 ， 一 个 摄像 机 工作 在 
82kHz， 传 感 器 有 四 行 ， 每 行 2352 像素 (两 次 累加 ) ， 进 行 14bit 宽 的 累加 ， 总 次 
数 是 771 x105 (82kHz - 4 行 / 图 像 2352 像素 / 行 ) 。 

MX 方法 可 以 应 用 于 任何 的 CMOS 面 阵 扫 摘 成 像 传 感 器 。 对 于 有 全 局 式 快 门 的 
传 感 咒 ， 其 工作 原理 与 CCD- TDI 的 一 致 。 但 是 ， 当 考虑 滚动 快门 时 ， 传 感 顺 的 各 
行 不 是 同时 曝光 的 。 更 确切 地 说 ， 每 行 的 电荷 积累 开始 于 不 同 的 时 间 点 ， 导 致 了 行 
间 存 在 微小 的 不 同步 。 因 此 ， 获 得 的 平面 图 像 将 在 传输 方向 呈现 微小 的 压缩 或 扩 
张 ， 取决 于 物体 的 传输 速度 和 读 取 速度 间 的 关系 。 为 了 补偿 这 种 压缩 或 扩展 ， 用 于 
精确 同步 的 行 频 广 必须 由 因子 (N +1)/N 调节 。N 表示 激活 的 可 累加 的 行 数 ，+ 
或 -取决 于 读 取 方 向 和 传输 方向 的 关系 。 


7.3.2 调节 阶段 


图 像 调节 阶段 汇总 了 基本 的 图 像 处理 方 法 ， 旨 在 对 不 完善 的 传感器 数据 进行 补 
E. TE HPSC 中 ， 这 个 阶段 包含 ， 平 场 校正 来 补偿 智能 像素 传感器 的 暗 信和 号 非 均 匀 
TE (DSNU) 和 交响 应 非 均 匀 性 (PRNU), ， 采 用 彩色 滤波 阵列 去 马赛 克 算 法 来 插值 
SKI EO, ， 带 有 可 配置 3 x3 EE 的 色彩 校正 ， 几 何 失 真 校正 "| 。 
对 于 DSNU 和 PRNU 的 定义 ， 参照 参考 文献 [236]. 。 几 何 失 真 的 主要 原因 是 ， 光 
学 系统 的 不 完善 ， 即 摄像 机 镜头 ， 会 引起 视 场 内 本 地 分 辨 率 的 变化 。 对 于 线 扫描 摄 
像 机 ， 相 较 于 二 维 的 情况 ， 失 真 可 以 很 容易 得 到 补偿 ， 只 需 对 图 像 数 据 进 行 一 维 的 
(与 像素 行 平行 ) 坐标 变换 。 这 样 ， 有 较 大 失真 的 镜头 也 能 用 ， 因 此 可 以 使 用 更 便 
宜 的 光学 组 件 。 


7.3.3 特征 提取 阶段 


特征 提取 阶段 的 目的 是 提取 相关 信息 ， 同 时 可 以 握 除 不 相关 的 信息 。 把 图 像 的 
低频 色 度 分 量 和 高 频 色 度 分 量 进行 分 离 ， 可 以 有 效 地 检测 印刷 缺陷 。 高 频 色 度 分 量 
包含 了 局 部 亮度 变化 的 信息 ， 人 了 眼 能 轻易 察觉 其 图 像 中 的 差异 变化 。 为 了 减少 数 
据 ， 在 不 失去 过 多 图 像 细节 信息 的 情况 下 ， 可 以 去 除 颜 色 信息 。 另 一 方面 ， 借 助 低 
通 滤波 后 的 色 度 信息 ， 可 用 来 找 出 污点 或 类 似 的 缺陷 ， 通 党 看 不 出 亮度 细节 的 渐 
变 。 在 对 检测 过 程 影响 很 小 的 情况 下 ， 可 以 通过 抽取 来 减 小 分 辩 率 。 

图 7. 6 为 特征 提取 阶段 的 图 像 处 理 过 程 。 通 过 对 R、G、B 分 量 加 权 求 和 得 到 
TERS Ly, Bl Ly = Roy + Gou +Bw.， 其 中 ou +o, o; =1。 为 了 减少 天 中 的 
摄像 机 噪声 ， 太 应 经 过 低 通 滤波 器 (3 x3 的 高 斯 滤波 器 和 矩阵，G3xG C3 x3), 
斯 滤波 器 由 二 维 的 二 项 式 滤波 器 '”” 实现 。 为 了 增强 工 ,的 局 部 变化 的 剧烈 程度 ， 
采用 高 通 Sobel' "横向 滤波 (SH) 器 和 纵向 滤波 器 (SV) 组 成 的 边缘 滤波 器 。 
过 对 Es 和 Es 二 次 方 求 和 ,计算 得 出 梯度 图 像 E.,,。 根 据 不 同 的 图 像 区 域 ，E,i、 
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算 保 留 了 边缘 位 置 ， 使 得 检测 过 程 具有 了 防止 不 易 被 人 眼 察觉 的 边缘 错 位 的 鲁 棒 
PEC! 另外， 由 升 / 降 边 沿 检测 器 (R/F-Edge) 产生 的 特征 ， 可 用 于 锐 化 传输 方 
向 上 的 边沿 。 经 过 5 x5 高 斯 滤波 器 (G5 x5) 可 计算 出 低 通 滤波 后 的 彩色 图 像 。 


7.3.4 校 验 阶段 


校 验 阶段 主要 进行 实际 图 像 特征 和 相应 主 特征 〈 见 7.2.1 节 ) 的 比较 。 图 7.6 
显示 了 特征 阶段 提取 的 所 有 特征 与 主 图像 集 参照 物 间 的 比较 。 

应 该 注意 ， 在 进行 校 验 前 ， 实 际 图 像 和 主 图 像 必须 相互 配 准 。 这 是 生产 中 的 固 
有 公差 所 决定 的 。 例 如 ， 当 基板 通过 打印 机 时 ， 它 要 受到 很 多 力 。 因 此 ， 获 取 的 位 
置 不 同 ， 基 板 可 被 拉 伸 、 压 缩 ， 甚 至 扭曲 。 这 些 特性 ， 是 两 幅 印刷 品 不 可 能 完全 匹 
配 的 原因 。 对 于 连续 的 印刷 品 ， 偏 差 可 能 小 ; 但 是 ， 当 时 间 周 期 比较 长 时 ， 偏 差 可 
能 很 大 。 

参考 文献 【600] 中 概述 了 一 些 配 准 方 法 。 在 图 像 卷 绕 单元 中 ， 因 为 其 
巨大 的 数据 吞吐 量 ， 因 而 使 用 了 图 像 金 字 塔 ”中 的 点 互相 关 。 有 关 算 法 的 比较 见 
参考 文献 【181] 。 所 谓 的 配合 点 ， 用 来 定义 配 准 过 程 的 变换 系统 。 
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Max2x2 m e: 
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误差 映射 


图 7.6 用 于 提取 、 检 查 、 配 合 点 搜索 和 统计 的 数据 流程 
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配合 点 也 用 于 质量 测试 中 ,需要 找到 可 靠 的 配合 点 ， 从 而 指出 印刷 品 的 缺失 
部 分 。 

根据 误差 函数 e,(x) ， 在 图 像 特定 区 域 上 可 以 针对 像素 误差 进行 加 权 。 这 种 方 
法 允许 适当 地 调整 分 割 的 过 程 并 改变 检测 的 灵敏 度 。 结 合 所 有 修正 的 误差 来 对 每 一 
个 像素 进行 估计。 举例 来 说 ， 这 个 最 大 值 可 选 做 校 验 阶段 的 结果 ， 这 个 结果 被 储存 
在 一 个 二 维 的 误差 图 中 ， 作 为 以 后 分 析 阶 段 的 基础 。 


7.3.5 分 析 阶 段 


误差 图 中 某 元 素 具 有 较 高 的 值 表 明 ， 被 检测 的 印刷 品 和 其 基准 参考 集 在 该 元 素 
相应 的 位 置 上 存在 很 大 偏差 ， 如 果 具 有 较 小 值 ， 表 明 这 两 者 是 一 个 很 好 的 匹配 。 通 
过 分 析 关 联 误 差 的 分 段 ， 可 以 识别 印刷 缺陷 的 明显 程度 或 范围 广度 。 并 且 在 误差 图 
中 设置 不 同 的 阐 值 能 将 这 些 分 段 找 出 来 ， 由 此 产生 的 分 段 或 秘 ， 叫做 斑点 。 

为 了 区 分 斑点 ， 需 要 对 其 进行 标注 。 关 于 如 何 进行 标注 的 一 般 介绍 见 参考 文献 
[137，462 ] ,快速 标注 的 方法 参见 参考 文献 [231 ] 。 

斑点 的 几 个 特性 可 用 来 对 印刷 缺陷 进行 辨别 和 分 类 。 例 如 ,一 个 斑点 的 大 小 要 
适应 于 印刷 瑕 盖 的 尺寸 。 同 样 地 ， 一 个 斑点 所 有 误差 的 总 和 反映 了 印刷 瑕 盖 的 严重 
程度 。 其 他 基于 斑点 的 质量 测量 方法 参见 参考 文献 【196] 。 

在 印刷 瑕 犹 检 测 的 基础 上 ， 还 可 利用 几 种 测试 方法 来 判断 印刷 质量 ， 例 如 ， 图 
像 统计 (总体 亮 度 区 域 ) ， 特 征 属 性 的 位 置 测量 ,文字 识别 ， 以 及 其 他 几 种 核对 的 
方法 。 基 于 这 些 方法 ， 最 后 得 出 总 体 的 检测 结果 。 

原则 上 ， 只 有 检测 系统 输出 信息 的 比特 才 可 以 确定 已 检测 的 印刷 品 是 否 符合 质 
量 标准 。 然 而 ， 在 许多 实际 情况 下 ， 仅 仅 核 对 个 别 检测 方法 的 结果 就 可 以 得 到 检测 
结论 。 例 如 ， 仅 利用 图 像 统计 来 调整 和 优化 印刷 过 程 ， 就 可 以 使 印刷 品 瑕 症 最 小 。 
这 样 就 可 以 减 小 计算 浪费 而 使 生产 率 最 大 化 。 
















































































7.4 实现 


设计 高 性 能 智能 摄像 机 的 关键 问题 是 算法 和 硬件 架构 的 匹配 。 很 有 必要 在 硬件 
算法 实现 和 相关 的 系统 软件 执行 之 间 取 得 平衡 。 为 了 便于 系统 的 实现 ， 需 采用 高 速 
图 像 传感器 、 高 端 FPGA 和 快速 DSP, 

7.4. 1 节 汇 总 了 设计 中 的 实际 约束 条 件 ，7. 4. 2 节 描 述 了 主要 的 硬件 结构 。 并 
且 在 7.4.3 和 7.4.4 节 中 讨论 了 将 什么 样 的 功能 任务 相应 地 分 配给 FPGA 和 软件 
任务 。 


7.4.1 约束 条 件 
尽管 HPSC 以 非常 灵活 的 模块 化 构架 为 基础 ， 对 所 有 的 高 性 能 图 像 处 理 任 务 仍 
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然 并 非 是 完美 的 解决 方案 。 这 是 它 的 预期 用 途 造 成 的 。 因 此 ， 在 印刷 品 检测 中 的 重 
点 任务 就 是 在 性 能 方面 做 出 折 中 。 

为 了 维持 合理 的 开发 风险 ， 高 性 能 智能 摄像 机 的 演变 分 为 几 个 阶段 。 每 个 阶段 
的 目标 都 是 构建 图 像 处 理 系统 。 从 而 ， 在 每 个 阶段 中 ， 高 性 能 摄像 机 的 集成 度 和 灵 
敏 度 都 提高 了 。 注 意 ， 高 性 能 智能 摄像 机 的 定位 是 小 批量 生产 和 灵活 面向 特定 应 
用 。 因 此 ， 在 专用 集成 电路 (ASIC) 中 实现 它 的 功能 并 没有 什么 优势 。 

在 HPSC 演变 进化 的 第 一 和 第 二 阶段 ， 成 功 研发 了 能 实现 很 多 图 像 处 理 任务 的 
100kHz 彩色 线 扫描 摄像 机 559 。 为 了 使 它 能 与 现 有 的 图 像 处理 硬 件 实现 连接 ， 其 
输出 数据 速率 不 得 不 和 摄像 机 的 基本 连接 模式 参数 相 匹配 。 因 此 ， 将 图 像 处理 任 务 
转移 到 摄像 机 中 就 能 很 好 地 解决 数据 传输 的 瓶颈 问题 。 

应 用 10Gbit/s 的 光纤 以 太 网 实现 摄像 机 和 远程 处 理 系统 的 长 距离 连接 。 
10Gbit/s 以 太 网 在 远程 通信 中 已 经 是 成 熟 的 技术 ,并且 就 像 其 先前 技术 那样 可 能 会 
渗透 到 大 众 市 场 。 这 样 ， 元 器 件 将 会 更 加 便宜 。 此 外 ， 在 将 来 还 会 支持 GigE 
Vision, 

在 HPSC 演变 进化 的 最 后 阶段 中 ，DSP 的 原型 板 将 会 微型 化 并 能 安装 在 摄像 机 
的 壳 体 中 。 在 工业 检测 任务 中 ， 虽 然 不 需要 10Gbit/s 的 以 太 网 链接 (而 是 用 
1Gbit/s 的 以 太 网 替代 ) ， 但 是 非常 有 必要 将 摄取 的 图 像 飞 速 存 储 到 远程 数据 库 服务 
器 ， 以 供 后 续 工 作 中 进行 参考 。 


7.4.2 硬件 


图 7.7 显示 了 高 性 能 智能 摄像 机 的 主要 组 成 部 分 。 它 包括 四 块 印 制 电路 板 
(模块 MI ~M4)。 高 性 能 智能 摄像 机 的 实物 图 如 图 7. 8 所 示 。 












































7.7 HPSC 主要 组 成 部 分 








传 感 模 块 (MI) 带 有 图 像 传 感 器 (Aptina MT9M413/MT9M440) 和 几 个 数 - 模 
转换 器 (DAC), ， 这 些 DAC 为 传感器 提供 可 变 的 模拟 参考 电压 和 偏差 ?1 。 这 些 数 - 
模 转 换 器 可 由 FPGA 控制 ， 因 此 可 根据 应 用 需求 形成 自 适 应 反馈 环 。 例 如 ， 高 性 能 
智能 摄像 机 有 一 个 重要 的 输入 模拟 量 ， 通 过 这 个 模拟 量 可 以 调节 模拟 传感器 增益 ， 




















g 





第 7 章 ”高 性 能 智能 摄像 机 107 








图 7.8 HPSC 成 像 系统 


实现 全 局 亮度 自动 校正 。 

处理 模块 (M2) 由 一 个 Altera 2S60 ARF” 和 外 部 图 像 存 储 器 组 成 ， 外 部 存储 
器 用 来 暂 存 图 像 或 局 部 图 像 。 

接口 模块 (M3) 包括 以 太 网 接口 和 必要 的 驱动 设备 。 此 外 ,模块 M3 也 有 像 
模块 M2 一 样 的 外 部 存储 器 。 特 别 要 注意 ， 由 于 以 太 网 不 能 为 高 速 线 扫描 成 像 保持 
准确 的 定时 性 能 ， 因 此 必须 从 外 部 给 摄像 机 馈 人 触发 需 信 号 〈( 例 如， 线性 触发 器 
HE). ， 从 而 获取 可 靠 的 成 像 。 另 外 ， 高 性 能 智能 摄像 机 可 产生 直接 用 于 机 器 控制 
的 输出 信号 。 

最 后 ， 分 析 模 块 (MA) 包括 了 数字 处 理 器 (TIC64x 系列 DSP). 

第 一 代 摄 像 机 包含 模块 MI, M2 和 可 选择 模块 M3cl (未 显示 ) ， 此 模块 提供 了 
链 路 接口 。 第 二 代 摄 像 机 由 模块 M1 ~ M3 组 成 ， 然 而 第 三 代 摄 像 机 总 共 由 四 个 模块 
组 成 。 


7.4.3 在 硬件 中 实现 的 一 些 功 能 


在 这 一 部 分 ， 硬 件 实现 的 功能 是 指 各 种 算法 已 经 在 FPGA 中 得 到 实现 。 要 在 便 
件 或 软件 中 实现 各 种 功能 ， 并 没有 通用 的 设计 规则 。 功 能 的 实现 方式 取决 于 特定 应 
用 的 约束 条 件 。 技 术 要 求 并 不 总 是 决定 性 因素 。 例 如 ，FPGA 的 开发 消耗 更 多 的 时 
间 且 费用 高 于 软件 实现 。 男 一 方面 ， 许 多 图 像 处 理 算法 在 FPGA 上 执行 得 比 在 DSP 
上 要 快 得 多 ”| V 通常 ， 低 级 图 像 处 理 如 滤波 器 内 核 或 图 像 统计 得 益 于 FPGA 的 并 
行 资源 ， 尤 其 是 在 要 求 高 否 吐 量 的 情况 下 。 如 果 希 望 在 大 的 图 像 区 域内 随机 访问 像 
素 ， 在 多 数 情况 下 基于 FPGA 来 实现 这 种 要 求 所 付出 的 代价 是 很 高 的 。 这 时 往往 需 
要 选择 合适 的 算法 ， 人 允许 将 大 图 像 分 割 成 更 小 的 片 (根据 FPGA 的 资源 应 该 对 片 的 
尺寸 进行 优化 ) 并 可 以 一 片 接 一 片 的 进行 处 理 。 简 言 之 ，FPGA 的 主要 优点 包括 巨 
大 的 输入 输出 带宽 ， 以 及 其 大 规模 并 行 处 理 的 潜力 。 

基于 FPGA 进行 高 性 能 智能 摄像 机 设计 时 ， 要 用 到 两 种 并 行 化 的 方法 (数据 并 
行 和 算法 并 行 "i ) 。 例 如 ， 在 特征 值 提取 阶段 (图 7.6) 的 流水 线 设计 中 充分 利 
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用 了 算法 的 并 行 性 ， 同 时 摄像 机 性 能 也 得 益 于 数据 的 并 行 性 ， 因 为 图 像 的 高 低频 部 
分 是 同时 被 处 理 的 。 

FPGA 函数 的 实现 包括 以 下 步骤 ， 如 图 7.4 所 示 : MX 阶段 ， 图 像 调 节 阶 段 ， 
特征 值 提取 阶段 ， 以 及 检测 阶段 。 相 关 的 详细 说 明 ， 请 参见 参考 文献 [194, 195, 
67, 198, 199, 156], 


7.4.4 由 软件 实现 的 一 些 功能 


在 高 性 能 智能 照相 机 中 使 用 了 两 类 处 理 器 : 中高 速 数 字 处 理 器 ; OE Altera 的 
FPGA 中 实现 的 软 核 NOIS 中 央 处 理 单元 (CPU) 5 。 因 此 ， 软 件 任务 被 分 配给 
个 处 理 器 。 然 而 ， 处 理 需 存在 着 明显 的 性 能 差异 ， 数 字 信 和 号 处 理 需 主要 用 于 数值 计 
算 ， 而 软 核 CPU 则 执行 控制 任务 。 

在 图 像 处 理 流程 中 ， 实 现 7.3.5 节 中 所 述 的 分 析 阶 段 是 数字 信和 号 处 理 融 应 完成 
的 软件 任务 。 这 些 任 务 包括 斑点 标注 ， 用 于 分 类 的 高 级 算法 ， 以 及 字符 识别 。 

















7.5 结论 和 展望 


本 章 介 绍 了 高 性 能 智能 摄像 机 。 它 是 一 种 彩色 线 扫描 摄像 机 ， 通 过 整合 高 端 图 
像 处 理 器 和 图 像 传 感 吉 来 检测 印刷 品质 量 。 现 有 的 智能 摄像 机 都 没有 包括 高 性 能 机 
器 视觉 方面 的 技术 ， 因 此 本 章 针 对 高 速成 像 传感器 和 远程 高 性 能 机 器 视觉 处 理 系 统 
之 间 存 在 的 数据 传输 瓶颈 问题 ， 着 重 论述 了 智能 摄像 机 解决 这 一 问题 的 可 行 性 。 

尽管 高 性 能 智能 摄像 机 是 基于 特定 应 用 要 求 而 设计 的 ， 但 在 所 有 应 用 中 都 要 涉 
及 高 速成 像 和 高 性 能 处 理 方面 的 技术 。 通 过 多 次 曝光 方法 ， 标 准 CMOS 面 扫描 成 像 
传感器 的 行 速 率 可 以 超过 100kHz。 得 益 于 面 扫描 的 可 操作 性 和 集成 的 镜头 畸变 补 
偿 技术 ， 线 扫描 HPSC 所 感 兴趣 的 细节 可 通过 手工 调节 来 实现 。 

组 件 架 构 可 以 实现 不 同 级 别 的 智能 : 中 基于 FPGA 中 的 高 性 能 图 像 处 理 技术 和 
标准 的 摄像 机 链 路 接口 ， 可 以 使 高 速 线 扫描 摄像 机 进行 工作 ; Q10Cbit/s 光纤 以 太 
网 接口 (HPSC 可 能 是 提供 该 接口 的 首 款 摄像 机 ， 人 参见 参考 文献 【565 ] ) IGbit/s 
以 太 网 及 在 另外 的 FPGA 中 扩充 了 专用 处 理 资 源 ; 名 增强 DSP 的 高 级 图 像 处 理 
能 力 。 

新 的 成 像 传感器 不 久 将 面世 ， 数 据 速率 会 超过 10Gbit/s， 同 时 图 像 质量 、 速 度 
和 分 辩 率 都 会 有 所 改善 。 例 如 Awaiba 公司 的 16K 线 扫描 传感器 5 和 奥地利 研究 
中 心 的 Xposure I 成 像 传 感 器 ， 这 会 推动 线 速 率 和 图 像 质 量 方面 的 前 沿 技术 的 发 展 。 
此 外 ， 检 测 要 求 也 随 之 提高 ， 这 样 就 需要 更 加 复杂 的 图 像 分 析 算 法 。 未 来 的 智能 摄 
像 机 必须 能 够 提高 处 理 这 些 数据 的 速率 。 两 个 问题 是 显著 的 : 中 原始 数据 输入 到 处 
理子 系统 ; @ 为 了 提取 所 需 信 息 执行 更 复杂 的 算法 。 

虽然 FPGA 可 以 解决 第 一 个 问题 ， 但 是 即使 是 下 一 代 FPGA 也 不 能 满足 第 二 个 
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问题 的 相关 算法 要 求 。 另 一 方面 ， 现 在 的 数字 信和 号 处 理 器 甚至 下 一 代数 字 信和 号 处 理 
器 都 不 能 达到 所 要 求 的 数据 速率 ， 也 不 能 提供 适当 的 处 理性 能 ， 虽 然 下 一 代数 字 信 
号 处 理 器 包含 了 多 核 (如 飞 思 卡 尔 公司 的 StarCore MSC8156) € 。 

接 下 来 所 介绍 的 多 核 构架 可 能 是 摆脱 此 困境 的 一 种 途径 。 目 前 几 个 引 人 注 目的 
处 理 器 ， 如 Tilera 公司 的 TilePro64 和 因 特 尔 公司 的 Larrabee。 两 种 处 理 右 都 包含 
64 个 强大 的 内 核 ”“3]。 尽 管 通用 图 形 处 理 器 (GPGPU) 进行 了 改进 I, 但 由 于 
它 的 高 功 耗 和 编程 方面 的 缺陷 ， 并 不 适合 摄像 机 的 集成 。 

在 未 来 几 年 ， 每 个 芯片 上 处 理 器 核 的 数量 将 会 持续 增加 ， 这 种 情况 也 会 影响 高 
性 能 智能 摄像 机 的 设计 。 然 而 ， 利 用 几 百 个 核 的 关键 在 于 人 算法 的 设计 ; Qa HEE 
构 的 实现 ，@ 存 在 可 利用 的 开发 环境 。 这 将 是 未 来 需要 面 对 的 最 重要 的 挑战 。 











A 


O 飞 思 卡尔 半导体 :2008 年 的 MSC 8156 产品 简介 。 











$83 — 嵌入 式 立 体 视 党 系统 


Kristian Ambrosch, Martin Humenberger, Sven Olufs, and Stephan Schraml 

摘要 ”在 过 去 几 年 中 ,立体 视觉 已 经 发 展 成 为 机 器 人 研究 领域 中 一 种 有 趣 的 感 
知 技术 。 它 在 室内 应 用 中 有 独特 的 优势 。 立 体 视觉 装置 小 巧 灵活 ， 由 于 它 是 无 源 
的 ， 因 此 不 会 对 环境 产生 影响 。 本 章 讨论 了 将 立体 视觉 系统 集成 到 智能 摄像 机 的 可 
能 性 。 立 体 视觉 涉及 大 量 算法 及 计算 ,因此 并 非 所 有 的 立体 视觉 算法 都 具有 实时 
性 。 本 章 将 详细 描述 两 种 实时 立体 视觉 算法 ， 并 证 明 它 们 在 智能 摄像 机 中 实现 的 可 
能 性 。 最 后 ， 本 章 介绍 了 用 于 估计 动态 的 景深 度 的 仿生 视觉 传 感 带 。 














8.1 简介 


立体 视觉 通过 寻找 两 个 平行 安装 的 摄像 机 所 捕捉 到 的 图 像 之 间 的 对 应 关系 来 完 
成 场景 深度 的 计算 。 场 景 中 的 每 一 个 点 对 于 摄像 机 都 是 可 见 的 ， 它 被 投影 到 摄像 机 
的 数字 传 感 世 片上 ， 并 由 图 像 上 的 一 个 像素 来 描述 。 假 设 一 个 场景 点 出 现在 两 个 摄 
像 机 的 图 像 中 ， 我 们 可 以 在 两 个 图 像 中 分 别 找到 同一 个 场景 点 对 应 的 像素 。 在 立体 
图 像 中 寻找 对 应 关系 的 过 程 被 称 作 立体 匹配 。 水 平 位 移 又 称 视差 ， 可 以 用 来 计算 场 
景深 度 。 如 果 计 算 所 有 像素 的 场景 深度 ， 就 会 形成 一 个 稠密 视差 图 ， 它 具有 和 原 摄 
像 图 像 相 同 的 数据 规模 ,保存 的 是 每 一 个 像素 的 视差 。 事实 上 ， 并非 所 有 的 点 都 能 
在 两 个 摄像 机 中 成 像 ， 所 以 视差 图 并 不 完整 。 我 们 称 这 些 丢 失 的 像素 为 “遮挡 点 
(occluded)”。 视 差 图 通常 和 摄像 机 成 像 是 一 臻 的。 稠密 视差 是 立体 匹配 的 一 种 方 
法 ， 男 一 种 方法 是 通过 寻找 图 像 中 边缘 或 矩形 的 特征 来 求 取 视差 。 这 种 情况 下 产生 
的 视差 图 并 不 稠密 ， 我 们 称 之 为 基于 特征 的 立体 图 像 。 本 章 仅 介绍 稠密 视差 图 ， 因 
为 它 的 研究 结果 应 用 更 为 广泛 。 

图 8. 1a 是 场景 点 PP 在 图 像 平 面 的 投影 ，zl Lm, 的 光 心 分 别 是 0 和 0,， 光 心 
间 的 距离 为 5。 场 景点 P= (x,y,z) ”由 世界 坐标 系 而 定 ， 它 在 图 像 平面 上 的 投影 
像素 坐标 表示 为 pj = (u,v) F p, = (u,,0,)"6 

点 pA p MFI gmg E, EXE HERR, we 和。 定义， 如 图 所 示 ， 核 点 是 图 像 
平面 和 基线 的 交叉 点 。 每 个 相对 应 的 像素 位 于 其 他 图 像 相 对 应 的 核 线 上 。 核 线 g, 
对 应 于 像素 p; ，g 对 应 于 p.o 

如 图 8. 1b 所 示 ， 如 果 核 线 与 基线 平行 并 且 与 图 像 行 相对 应 会 很 有 利 ， 因 为 党 
着 单 张 图 像 的 行 来 搜索 对 应 的 像素 ， 相 对 于 针对 整个 图 像 或 沿 着 斜 核 线 来 查找 ， 会 
减少 搜索 点 。 这 个 设 定 可 以 通过 校正 实现 。 在 校正 图 像 中 ， 所 有 核 线 都 是 水 平 的 ， 







































































图 8.1 立体 视觉 几何 校正 前 和 校正 后 





a) 校正 前 b) 校 


正 后 


核 点 无 穷 多 ， 对 应 像素 有 相同 的 " 坐标 ， 只 要 知道 摄像 机 的 几何 位 置 〈 可 由 立体 摄 


像 机 标定 计算 出 来 ) ， 就 能 校正 图 像 。 


实际 使 用 时 ， 镜 头 会 畸变 ， 所 以 本 童 给 定 的 理想 中 心 投 影 的 假设 就 会 不 成 立 。 
为 了 解决 这 个 问题 ， 摄 像 机 图 像 必 须 利用 径 向 畸变 和 切 向 畸变 模型 来 消除 畸变 ， 这 
些 模型 都 是 由 单个 摄像 机 标定 得 出 的 系数 产生 的 。 与 立体 视觉 几何 矫正 不 同 ， 要 对 





每 个 摄像 机 单独 消除 畸变 。 关 于 单个 或 立 
体 标定 的 详细 信息 可 以 在 参考 文献 【592 ， 
504, 205, 74] 中 找到 。 通 党 使 用 的 工具 
包括 加 州 理 工大 学 标定 工具 箱 2， 在 
OpenCV 库 呈 中 可 以 找到 。 

为 了 实现 快速 的 立体 视觉 几何 矫正 和 
畸变 消除 ， 可 以 离线 计算 某 种 反 向 变换 图 。 
它们 可 以 立即 实现 对 图 像 的 立体 视觉 几何 
矫正 和 了 畸变 消除 。 如 图 8. 2 所 示 。 

一 旦 在 起 始 时 刻 计算 了 这 种 反 向 变换 











图 8. 2 用 于 立体 视觉 几何 矫正 和 
畸变 清除 的 反 向 变换 


图 ， 就 可 以 在 运行 时 段 对 所 有 的 图 像 做 相同 的 变换 。 详 细 地 讲 ， 一 个 反 向 变换 可 以 
用 于 计算 由 畸变 非 矫正 图 像 坐 标 ( U,,，V,)" 无 畸变 的 、 立 体 视觉 几何 矫正 后 的 图 


像 的 坐标 (wu，v) ， 其 坐标 关系 如 下 : 





dst(u,v) =sre(mapx(u,v) ,mapy(u,v) ) (8.1) 


其 中 : 


mapx(x,y) -u,  mapy(x,y) =04, (8.2) 














© Matlab 中 的 摄像 机 校准 工具 箱 (2008 JR), m JY Bouguet 提供 。 http: //www. vision. caltech. edu/bou- 





guetj/calib. doc/. 
© http://sourceforge. net/projects/opencvlibrary 
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在 本 章 中 ， 我 们 假设 立体 图 像 是 无 畸变 且 经 立体 视觉 几何 矫正 的 。 使 用 视差 图 
(disparity map) ， 可 以 通过 三 角 法 计算 每 一 个 像素 的 深度 。 表 示 为 


_ of 
z=% (8.3) 


这 里 ，z 是 场景 点 和 对 应 的 摄像 机 之 间 的 距离 ; b 是 立体 摄像 机 的 基线 ; /是 摄 
像 机 的 焦距 ; d 是 像素 的 偏 移 。 摄 像 机 坐标 的 3D 数据 为 


(x. ) (uz. 
y, 2K om (8.4) 
Vy Vz J 


K 是 摄像 机 标定 (calibration) FER, RAH SKA (uz,, v, z,) 表示 ， 
z, 由 公式 (8.3) 计算 得 出 ，K 和 了 /可 以 利用 单个 摄像 机 标定 确定 。 更 多 关于 立体 
视觉 和 三 维 重建 的 内 容 可 以 查阅 参考 文献 [172，504] 。 

之 前 阐述 了 立体 视觉 中 所 有 重要 的 基本 原理 ， 接 下 来 ， 将 介绍 一 些 适合 于 智能 
摄像 机 和 向 入 式 系统 通用 的 立体 匹配 算法 。 








8.2 立体 匹配 算法 


从 1980 年 出 现 立 体 匹 配 算法 这 个 概念 以 来 , 已 经 出 现 了 多 种 立体 匹配 算法 。 
在 不 考虑 处 理 时 间 的 情况 下 ， 很 多 算法 的 效果 都 很 好 。 对 于 众人 式 系 统 ， 处 理 时 间 
和 高 帧 率 是 必需 的 ， 任 何 情况 下 都 应 该 达到 10fps， 而 且 算 法 应 该 具有 实时 性 ， 这 
就 意味 着 计算 必须 在 一 定 的 时 间 帧 内 完成 ， 还 必须 独立 于 当时 的 真实 场景 (actual 
scene) 。 现 有 人 研究 表明 ， 基 于 相关 性 的 (correlation- based) 算法 是 最 适合 通信 式 系 
统 的 实现 的 。 参 考 文献 [89] 是 一 篇 很 好 的 关于 实时 立体 图 像 匹 配 研究 现状 的 综 
述 ， 该 文 只 提 到 了 基于 相关 性 的 算法 。 本 章 将 详细 介绍 两 种 基于 相关 性 的 立体 匹配 
算法 ， 第 一 种 是 大 家 熟知 的 绝对 值 差分 求 和 法 ， 另 一 种 是 参考 文献 [588] 介绍 的 
相对 复杂 的 census 变换 。 

一 般 地 讲 ， 基 于 相关 性 的 立体 匹配 算法 的 步骤 如 下 : 第 一 步 ， 计 算 所 有 像素 的 
匹配 代价 以 及 所 有 存储 在 三 维 数据 结构 中 的 视差 ， 这 被 称 为 视差 空间 图 (Disparity 
Space Image，DSI) 。 匹 配 代价 定义 了 正确 匹配 的 概率 ， 即 代价 越 小 ， 概 率 越 高 。 
为 了 提高 正确 匹配 的 概率 ， 可 以 做 这 样 一 个 假设 : 除了 断 点 ， 相 邻 的 像素 都 有 相同 
的 视差 。 所 以 第 二 步 要 计算 每 一 个 像素 周围 特定 窗口 内 的 总 代价 ， 这 个 算法 的 缺点 
是 物体 边界 在 视差 图 中 变 得 更 宽 。DSI 保留 了 每 个 视差 层次 下 所 有 像素 的 总 代价 。 
最 后 一 步 是 找 出 具有 最 低 代价 的 视差 层 。 局 部 方法 是 从 邻 域 中 选择 一 种 独立 于 其 他 
像素 且 有 具有 最 低 代 价 的 像素 进行 匹配 。 最 常见 的 一 种 方法 是 胜 者 优先 (winner 
takes al，WTA) ， 在 所 有 可 能 的 视差 值 中 搜索 最 小 值 或 最 大 值 。 全 局 方法 是 用 扫描 
线 或 整体 图 像 为 每 个 像素 指定 视差 值 。 全 局 方法 包括 动态 规划 “25 ， 图 割 
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(graph cuts) 77", LIBERO! 。 绝 大 多 数 全 局 方法 计算 成 本 很 高 ， 目 前 
无 法 实时 实现 。 只 有 动态 规划 能 够 用 于 实时 匹配 2; ， 但 是 它 产 生 的 视差 图 有 水 平 
条 纹 ， 这 是 一 个 主要 的 缺点 。 匹 配 可 以 从 右 往 左 ， 反 之 亦 然 ， 所 以 遮挡 点 和 不 确定 
匹配 能 通过 左右 相 容 性 检查 过 滤 掉 。 这 就 意味 着 ， 只 有 在 两 个 方向 都 相同 的 视差 什 
(在 一 定 的 范围 内 ) 才 被 设 定 为 有 效 。 最 后 ， 计 算 摄像 机 光 心 的 正 交 距离 、 三 维 点 
云 ， 进 行 三 维 重建 。 图 8.3 是 上 述 立体 匹配 算法 的 原理 流程 框图 。 


损失 估计 
DSL as 


WTA+ 子 集 





像素 重新 定义 








图 8.3 立体 匹配 算法 的 原理 流程 框图 


工作 流程 的 第 一 步 是 通过 立体 头 获取 立体 图 像 (假设 无 畸变 且 经 立体 视觉 几 
何 矫正 ) (stero image acquisition by the stero head) 。 本 算法 使 用 黑白 图 像 输入 ， 
此 使 用 黑白 摄像 机 就 很 方便 ,不 需要 再 把 彩色 图 像 变 为 灰 度 图 像 。 与 贝尔 模板 图 像 
相 比 ， 黑 白 摄 像 机 传输 的 图 像 更 为 清晰 ， 而 且 噪 声 较 低 。 另 一 个 重要 的 方面 是 立体 
图 像 捕捉 的 同步 性 ， 尤 其 是 在 摄像 机 头 或 者 捕 提 场景 是 移动 的 情况 下 ， 图 像 获 取 必 
须 尽 可 能 是 同时 的 〈 很 多 摄像 机 都 有 外 部 触发 输入 ， 它 提供 了 同时 精确 触发 两 个 
摄像 机 的 可 能 性 ) 。 

在 census 匹配 算法 中 ， 先 对 图 像 对 进行 census 变换 ， 该 变换 取决 于 实际 像素 
和 确定 窗口 内 像素 之 间 的 局 部 强度 关系 。 这 个 关系 由 下 面 的 函数 定义 : 

0 p,€p; 
Eleda) 01; (8.5) 
Pi 2p» 

XE, p, Mp, 是 图 像 的 像素 ; census 变换 由 式 (8.5) 为 左 、 右 图 像 中 的 每 个 
像素 产生 比特 流 LRL RU, AX (8.6) MR (8.7) 所 示 ， 运 算 符 四 表示 逐 
位 连接 运算 ; nxm 是 窗口 的 大 小 : 


n/2 m/2 
Lus, v= ©, OE ra Us v), La (u ti, v+j)) (8.6) 








Rus Y= O, O EO (ts v), Realu ti, v) — (7) 
下 一 步 是 匹配 部 分 。 必 须 计算 每 个 像素 可 能 的 匹配 代价 。 匹 配 是 在 一 定 的 视差 
范围 dam ~ di 进行 的 。 计 算 结果 存储 在 大 小 为 长 (disps) x 宽 x 高 的 视差 空间 图 
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中 。 如 图 8. 4 所 示 三 维 矩 阵 中 的 一 个 切片 是 一 个 视差 层 。 











图 8.4 两 种 DSI 可 能 1 
a) 标准 型 b) 内 存 简化 型 (memory reduced) 
左边 是 标准 的 DSI， 右 边 是 内 存 简 化 型 。DSI 的 大 小 是 可 以 被 简化 的 ， 因 为 对 
每 个 视差 层 (disparity level) 来 说 ， 仅 有 宽度 为 d 的 像素 是 可 能 的 匹配 集 。 如 果 匹 


配 是 从 右 往 左 进行 的 ， 则 如 图 8.5 所 示 ， 右 边 图 像 右 侧 的 像素 没有 匹配 点 ， 这 些 像 
素数 量 随 着 视差 层 的 变化 而 增加 。 


d=0= daan d=d' d=d" 






宽度 -4d 





图 8.5 DSI 宽度 随 着 视差 水 平 变 短 


计算 两 种 census 变换 像素 的 代价 函数 ， 等 同 于 计算 两 个 比特 流 之 间 的 海 明 距 
离 。 式 (8.8) 计算 了 整个 DSI 中 图 像 的 census 变换 ; 
Vd [doar ,d,,, ]: DSI,(u,v) = Hamming( Resa (U,V) ,Ls Qu d,v)) (8.8) 
对 SAD， 代 价 函数 是 两 个 像素 强度 之 间 的 绝对 差 ， 它 会 改变 DSI 的 计算 . 
Vd e [doar ,d,,, ]: DSI, (u,v) = | Ro (u,v) - Li (uu *d,v) | (8.9) 
定义 一 个 简单 的 方形 窗口 滤波 需 计 算 代 价 和 : 
Vde Ld oars doop 12 DSL ager (UY) 三 X Y Dsl, (u +i,v +j) (8. 10) 
计算 完 所 有 可 能 的 匹配 之 后 ， 就 应 该 寻找 最 好 的 匹配 。 迄 今 为 止 ， 绝 对 值 差 分 
求 和 与 census 变换 两 种 方法 的 处 理 步 又 是 相同 的 。 正 如 前 面 所 说 ， 代 价 最 小 为 匹 
配 最 好 。 图 8.6 给 出 一 种 典型 的 代价 函数 。 黑 色 圆 圈 表 明 整 数 级 视差 层 的 代价 ， 可 
以 看 到 在 误差 水 平 d,,, 时 代价 最 小 ， 这 个 水 平 就 是 通过 胜 者 优先 的 搜索 方法 获 
得 的 。 
图 8.6 反映 了 整数 级 视差 .但 是 在 大 多 情况 下 真正 的 视差 是 介 于 二 者 之 间 的 。 
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匹配 代价 





视差 
图 8.6 损失 函数 实例 


为 了 计算 所 谓 的 亚 像 素 视差 ， 采 用 抛物 线 拟 合 的 方法 。 最 好 的 整数 级 视差 和 它 的 邻 
点 被 用 来 扩展 (span) 图 8. 6 所 示 的 抛物 线 ， 并 且 它 的 最 小 值 就 是 亚 像素 的 视差 。 
现在 及 以 后 ，y(d) 表示 某 一 像素 在 视差 d 时 的 确定 匹配 代价 。 一 个 像素 的 亚 像素 
视差 计算 方法 如 下 : 
Vd +1) - Gus -1) 
"o m 229 dain) -YC dain 71) -yC dain *1)) 
公式 中 的 坐标 (Qu, v) 被 省 略 。 在 亚 像素 准确 度 上 ， 整 个 视差 图 在 两 个 匹配 
方向 上 的 计算 由 以 下 公式 完成 : 
DM,» (u, v) 7 d (u, v) (8. 12) 
DM,, (u,v) = ds (uv) (8.13) 
为 了 滤 除 遮挡 点 和 不 确定 的 匹配 ， 对 DM_， 与 DM_， 做 左 / 右 相 容 性 检查 来 确 
定 最 后 的 视差 图 DM pna: 





(8.11) 


a+b 


la-b|<1: 








DM (u,v) -| (8. 14) 
la-b|»1:0 
iH. 
a=DM (u, v) bzZDM,,, (u-a, v) (8. 15) 
最 后 一 步 是 利用 式 (8.3) 计算 Z 图 像 ， 利 用 式 (8.4) 考虑 左 摄像 机 坐标 系 
统 的 三 维 点 云 。 图 8.7 显示 了 绝对 值 差分 求 和 (SAD) 与 census 变换 得 到 的 最 终 视 
差 图 数据 集 ， 三 个 数据 集 来 自 Middlebury Stereo 评估 网 站 2 。 

















© Middlebury 的 计算 机 视觉 和 立体 匹配 评估 网 站 ,http: //vision. middlebury. edu/stereo 
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于 绝对 值 差分 求 和 与 census 变换 两 种 方法 产生 的 视差 图 数据 集 


8.3 藤 入 式 立 体 匹 配 的 实现 


8.3.1 综述 


立体 匹配 算法 的 计算 复杂 度 较 高 。 近 来 ，Zinner 等 人 已 经 提出 可 以 通过 数字 信 
号 处 理 器 实时 实现 基于 处理 器 的 立体 匹配 算法 。 然 而 ， 必 须 严 格 地 限制 帧 速率 ， 图 
像 分 辨 率 ， 以 及 视差 范围 。 此 外 ， 他 们 的 解决 方案 是 非 角 入 式 的 。 

好 在 还 有 许多 文献 提 到 过 较 少 限制 的 基于 舰 入 式 硬 件 的 实现 方案 。 对 于 SAD 


算法 ，Cuadrado £A? 








提出 了 基于 Altera Stratix II FPGA 的 立体 匹配 架构 。 他 们 用 





了 了 4x4 大 小 和 90 像素 的 视差 范围 ， 处 理 1024 x 1024 像素 摄像 机 图 像 的 速率 达到 
85fps。 男 一 项 关于 SAD 算法 的 工作 是 由 Peri 等 人 提出 的 ， 他 们 对 512 x512 像素 


的 图 像 使 用 5 x5 SAD 算法 ， 以 25. 6fps 的 速率 实现 了 高 达 255 个 像素 的 视差 范围 。 





关于 census 变换 ，Woodfill 等 人 中 提出 了 DeepSea， 一 种 图 像 匹配 专用 的 集成 电 
路 。 在 52 个 像素 的 视差 范围 ， 以 200fps 的 速率 在 512 x 480 像素 的 图 像 上 实现 了 
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7 x7 的 census 变换 。 
这 些 应 用 表明 了 基于 硬件 的 解决 方案 适用 于 立体 匹配 算法 。 因 此 ， 这 部 分 将 描 
述 如 何 使 用 FPCA 实现 SAD 算法 与 census 变换 。 


8.3.2 系统 概念 


基于 FPGA 的 立体 视觉 系统 的 实现 ， 主 要 是 利用 FPGA 从 摄像 机 界面 捕捉 立体 
图 像 ， 对 图 像 进 行 校正 、 立 体 匹 配 ， 最 后 输出 如 图 8. 8 所 示 的 视差 图 。 摄 像 机 图 像 
的 输入 和 输出 的 界面 可 以 用 IP 核 来 实现 ， 畸 变 消 除 和 立体 视 党 几何 矫正 单元 可 以 
通过 查找 表 简 单 地 实现 ， 查 找 表 包含 了 变换 图 。 然 而 ， 立 体 匹配 单元 的 实现 并 不 容 
易 ， 因 此 接 下 来 会 进行 详细 的 描述 。 




















图 8.8 基于 FPCA 的 构架 


8.3.3 基于 FPGA 的 立体 匹配 


8.3.3.1 量化 复杂 性 - 稀疏 census 变换 

低 纹 理 表 面 的 立体 匹配 要 求 大 尺寸 的 census 变换 ， 这 将 导致 算法 的 复杂 性 很 
高 。 为 了 使 复杂 性 可 控 ， 所 需要 的 逻辑 单元 少 ， 
可 以 采用 以 下 方式 : 仅仅 分 析 每 一 串 的 第 nn 个 比 
特 位 将 减少 比较 海 明 距 离 的 位 数 。 因 此 ， 在 匹配 
过 程 中 , RPA 1/2 的 像素 。 如 图 8.9 所 示 ， 
n=2。 这 会 导致 采样 过 下 ， 使 得 实现 低 纹 理 表面 
匹配 的 大 尺寸 变换 成 为 可 能 ， 同 时 保持 了 较 低 的 
资源 利用 率 。 此 外 ， 还 可 以 在 恒定 的 模块 尺寸 下 ， 
调整 算法 的 复杂 性 。 

当然 ， 稀 玻 计算 也 导致 了 准确 度 下 降 。 不 过 
表 8.1 所 示 ， 当 n=4 时 ， 准 确 度 下 降 还 很 小 。 总 “图 8.9 FiDi census 变换 ，n =2 
之 ,三 个 数据 集 上 的 总 准确 度 仍然 远 高 于 SAD 算 
法 的 准确 度 。 
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表 8.1 census SiR, FRE census 变换 和 SAD 算法 的 失 配 率 比较 




















立体 算法 泰 迪 能 玩具 /(%)| HEE (A ) 维 纳 斯 /( % ) 
Census 变换 15 x15, Agg. 5x5 8. 509 5. 946 2. 943 
稀 下 Census 变换 15 x 15, Age. 5x5 9. 181 6. 159 3.877 
SAD 算法 19 x 19 17. 503 12. 194 8. 49 





8.3.3.2 立体 匹配 单元 
目前 基于 FPGA 的 立体 匹配 单元 由 三 个 主要 流程 组 成 ， 如 图 8. 10 所 示 。 分 别 
是 输入 、 计 算 和 提取 阶段 ， 在 主 同 步 之 后 它们 是 并 行 工 作 的 。 


输入 阶段 计算 阶段 提取 阶段 





































EB OT 图 像 缓 冲 1 
图 像 1 :第 2 行 - 








Ik ru 
x 


障 
入 
图 8.10 基于 FPGA 的 立体 匹配 


输入 阶段 可 以 从 输入 口 一 行 一 行 地 读 和 人 图像 信 息 并 且 把 它 存在 了 芯片 的 内 部 存 
储 融 中 。 存 储 融 采用 循环 结构 (循环 存储 带 ) ， 图 像 的 每 一 行 都 存储 于 一 个 独立 的 
内 存 块 中 。 这 样 ， 当 输入 阶段 访问 某 个 内 存 块 时 ， 计 算 阶 段 可 以 访问 其 他 的 内 存 
块 。 计 算 阶 段 要 从 内 部 存储 右 中 读 取 存 储 的 图 像 的 行 。 既 然 每 行 都 是 独立 存储 的 ， 
那 就 可 以 在 每 个 时 钟 周期 ， 读 取 内 存 块 中 垂直 行 的 像素 。 然 后 ， 如 果 选 择 census 
变换 ， 读 出 的 内 存 块 的 内 容 就 发 生 了 变换 并 且 产 生 的 比特 向 量 存储 在 内 部 寄存 融 
中 。 如 果 用 了 SAD 算法 ， 这 里 会 存 人 强度 值 。 随 后 在 这 些 值 的 不 同 视 差 水 平 上 通 
过 使 用 海 明 距 离 或 者 绝对 差 来 计算 匹配 代价 。 现 在 ， 通 过 WTA 算法 ， 佑 算 左 、 右 
视差 图 中 最 小 代价 点 的 位 置 。 

这 个 阶段 是 高 度 流程 式 的 ， 在 一 个 时 钟 周期 内 ， 可 以 计算 所 有 视差 水 平 上 的 每 
一 个 像素 的 匹配 代价 。 不 幸 的 是 ， 这 样 不 仅 会 导致 高 帧 速率 也 会 产生 高 增长 的 逻辑 
消耗 。 进 一 步 来 说 ， 对 于 大 多 数 应 用 ， 摄 像 机 每 秒 30 帧 的 速率 是 足够 的 ， 青 高 的 
帧 速率 其 实 是 一 种 浪费 。 

因此 ， 我 们 把 视差 范围 分 成 独立 的 部 分 分 别 计算 ， 每 行 都 会 产生 多 个 回合 的 计 
算 。 产 生 的 中 间 值 ， 即 位 置 和 与 之 匹配 的 最 佳 值 都 存储 在 内 部 存储 器 中 。 在 图 像 行 
的 所 有 划分 都 计算 完 之 后 ， 提 取 阶 段 读 出 最 后 一 个 图 像 行 的 中 间 值 ， 再 次 通过 
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WTA 算法 计算 出 最 佳 匹配 。 然 后 这 些 匹 配 就 是 提取 的 用 于 检测 相 容 性 的 亚 像 素 。 
最 后 ， 产 生 的 值 作为 视差 图 的 最 后 像素 值 显 示 到 输出 端 。 

为 了 在 计算 阶段 和 提取 阶段 实现 并 行 计算 ， 在 这 些 阶段 使 用 不 同 的 存储 器 组 ， 
它们 在 每 一 行 计 算 之 后 进行 转换 。 

基于 循环 的 计算 使 得 根据 帧 速率 量化 逻辑 消耗 成 为 可 能 ， 也 使 得 在 视差 范围 内 
通过 减少 划分 的 数量 调整 立体 视觉 系统 的 帧 速率 成 为 可 能 。 仅 仅 通过 合成 时 间 就 可 
以 调整 逻辑 消耗 ， 与 视差 相 比 ， 在 运行 期 间 调整 帧 速率 也 是 可 能 的 ， 这 曾经 属于 基 
于 软件 的 立体 系统 范畴 。 

图 8. 11 表明 了 基于 上 述 构 架 ， 针 对 帧 速率 为 60， 尺 寸 750 x400 的 60 级 视差 
图 像 ， 分 别 采用 SAD 算法 和 census 变换 进行 处 理 所 需 的 逻辑 消耗 。 针 对 census 变 
Hi, 我 们 使 用 原始 的 census 变换 和 =4 WRA census 变换 。 当 n=4 时 ， 块 大 小 
15 x15, 使 用 5 x5 的 聚合 窗口 。 对 于 SAD 算法 使 用 的 是 19 x 19 的 模块 。 因 此 ， 
对 于 立体 匹配 来 说 所 有 的 算法 都 对 相同 大 小 的 块 进行 评价 。 明 显 地 ， 在 本 算法 中 ， 
稀 玻 计算 可 以 有 效 减少 逻辑 消耗 ， 在 模块 尺寸 等 于 或 小 于 11 x 11， 其 逻辑 消耗 其 
至 小 于 SAD 算法 的 逻辑 消耗 。 与 SAD 算法 在 精度 方面 相 比 较 也 仍然 具有 苋 争 力 。 
DOMME TS Mit census 变换 成 为 智能 摄像 机 的 最 佳 选 择 ， 因 为 摄像 机 中 的 资源 有 限 ， 
需要 简约 的 解决 方案 。 
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图 8.11 取决 于 模块 大 小 的 census ZH, Fiii census 变换 以 及 SAD 算法 的 逻辑 消耗 


8.4 立体 匹配 系统 的 应 用 


对 于 立体 视觉 在 家 用 机 器 人 导航 、 避 障 以 及 建立 地 图 等 方面 的 应 用 ， 我 们 给 出 
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了 最 先进 的 算法 介绍 。 我 们 将 解释 立体 视觉 是 如 何 应 对 这 项 具有 挑战 性 的 任务 的 。 
此 外 ， 我 们 对 比 了 立体 视觉 和 激光 测 距 扫描 仪 的 结果 ， 讨 论 了 它们 的 优点 与 缺点 。 

导航 是 运动 机 器 人 最 具 挑 战 性 的 一 项 能 力 。 一 个 控制 程序 ， 所谓 的 行为 ， 在 不 
伤害 人 、 环 境 或 机 器 人 本 身 的 情况 下 ， 控 制 机 器 人 通过 已 知 或 未 知 的 环境 。 这 项 任 
务 需要 知道 机 器 人 对 于 先 验 已 知 的 地 图 或 者 目前 学 习 到 的 地 图 的 相对 人 位置， 并且 能 
够 识别 潜在 的 危险 物 。 对 机 器 人 来 讲 ， 这 样 危 险 的 物体 可 以 是 一 块 巨 石 ， 这 块 石头 
对 于 车 或 者 机 器 人 来 说 都 是 很 危险 的 。 同 样 ， 机 器 人 对 于 人 类 而 言 可 能 也 是 危险 
的 。 上 述 过 程 就 是 所 谓 的 避 障 。 但 是 我 们 首先 要 从 在 环境 中 学 习 地 图 开始 。 

对 于 室内 环境 分 析 的 一 种 经 典 的 方法 是 栅 格 地 图 法 ， 见 图 8. 12。 地 图 由 单元 
格 构成 ， 抢 阵 中 的 单元 格 能 够 反映 真实 的 环境 。 每 个 单元 格 代表 一 个 真实 的 区 域 
(典型 的 是 5cm ) ， 在 图 上 ， 它 可 以 是 空闲 的 ， 被 占据 的 ， 或 是 未 知 的 。 机 器 人 可 
以 行走 于 空闲 的 单元 格 ， 但 必须 绕 行 被 占据 的 单元 格 。 例 如 ， 桌 子 也 是 被 占据 单元 
K, 否则 机 器 人 会 与 之 发 生 碰撞 。 未 知 区 域 还 没有 探索 清楚 也 不 能 冒进 (只 是 因 
为 还 不 清楚 ) 。 栅 格 地 图 定位 的 主要 思想 很 简单 : 我 们 使 用 传感器 来 灵活 地 探测 空 
闲 的 可 行 领 域 ， 以 及 诸如 墙 、 桌 子 等 被 占据 的 区 域 。 利 用 非 线性 优化 或 贝 叶 斯 滤波 
方法 ， 根 据 立 体 特 征 与 环境 的 匹配 来 估计 机 器 人 的 位 置 。 

图 8. 12 显示 了 由 SIM I LITTLE 7! 提出 的 一 种 方法 。 机 器 人 利用 立体 视觉 提 
取出 墙 和 空闲 区 域 ， 并 且 把 这 些 信 息 成 功 地 加 入 地 图 。 当 机 器 人 移动 时 ， 它 就 通过 
扫描 匹配 校准 的 方法 向 地 图 中 增加 新 的 数据 〈 例 如 墙 ) 。 这 种 方法 相当 简单 : 先 通 
过 机 器 人 轮子 上 的 ( 测 程 法 ) 传感器 读数 获得 其 在 图 上 的 虚拟 位 置 。 然 后 通过 使 
用 简单 的 最 小 误差 法 ， 利 用 传感器 的 新 数据 对 先前 的 地 图 进行 调整 。 因 为 轮子 的 漂 
移 和 滑动 是 传 感 涡 无 法 感知 的 ， 所 以 这 个 调整 是 必需 的 。Sim 等 人 的 方法 表明 了 在 
机 器 领域 使 用 立体 传感器 要 上 比 使 用 激光 扫描 仪 更 有 效 : 通过 使 用 立体 图 像 可 见 的 信 
息 ， 区 别 描述 符 被 用 来 重新 探测 (先前 看 到 的 ) 墙 。 这 对 于 克服 在 构造 地 图 过 程 
中 碰 到 的 所 谓 封 闭环 路 问题 很 重要 ， 先前 去 过 的 地 方 并 不 能 被 记忆 并 且 在 地 图 上 被 
认为 是 一 个 新 的 地 方 。 这 个 问题 源 于 传感器 的 噪声 ， 举 例 来 说 就 是 轮子 编码 器 ， 立 
体 视 觉 。 在 传感器 里 即使 是 比较 小 的 错误 ， 或 者 是 校准 错误 都 会 产生 很 大 的 影响 。 
由 Sim 等 人 发 明 的 这 种 方法 能 够 通过 在 早期 阶段 进行 重新 探测 的 区 别 特征 修正 地 
图 。 即 使 是 很 多 的 错误 也 能 够 通过 使 用 这 些 特征 纠正 过 来 。 现 在 ， 让 我 们 通过 立体 
视觉 的 方法 来 考虑 避 障 。 

图 8. 13 说 明了 一 种 常见 的 用 于 室内 机 器 人 的 方法 : 地 面 空 间 探测 方法 。 机 器 
人 提取 了 导航 中 的 安全 区 域 。 以 这 点 为 参照 ， 可 以 设计 出 一 条 通过 该 区 域 的 安全 路 
径 。 白 色 区 域 代表 了 使 用 立体 视觉 已 提取 的 空地 ， 黑 色 代 表 的 是 使 用 了 传统 的 激光 
扫描 仪 得 到 的 信息 。 可 以 看 到 ， 在 左 图 中 激光 扫描 仪 并 不 是 真 的 提取 出 了 一 个 区 
域 。 这 是 因为 在 特定 高 度 上 的 激光 扫描 仪 能 够 检测 到 二 维 空间 。 这 就 导致 了 负面 效 

























































































图 8. 12 ”具有 栅 格 地 图 的 立体 导航 : 圆 物 体 代表 机 器 人 ， 它 通过 摄像 机 具有 视觉 











功能 (白色 领域 代表 了 空地 ， 








黑色 代表 被 占据 的 区 域 ， 灰 色 是 未 知 区 域 ) 





RR. 例如 在 区 域 扫描 中 ( 右 )? 位 于 左边 的 自行 车 的 轮子 就 被 忽略 了 。 在 图 像 的 右 
边 ， 我 们 可 以 看 到 打开 的 橱柜 也 没有 探测 到 。 对 于 激光 扫描 仪 这 两 个 物体 都 是 不 可 
见 的。 立体 摄 像 机 则 能 够 探测 到 适当 的 安全 区 域 。 为 什么 立体 传感器 在 室内 机 器 人 
领域 不 普遍 呢 ? 首先 由 于 运动 模糊 或 者 弱 的 灯光 条 件 ， 并 不 能 保证 立体 视觉 系统 在 
一 幅 图 像 上 总 能 探测 到 所 有 的 物体 。 激 光 扫描 仪 则 几乎 提供 了 可 信 的 结果 。 另 一 
个 事实 是 立体 传感器 的 视野 范围 (通常 是 30 ~ 100°) 比 起 激光 扫描 仪 的 视角 ( 通 
常 是 180°) 来 说 要 小 很 多 。 通 常 激光 扫描 仪 的 精度 是 lmm， 而 立体 视觉 系统 的 精 





度 则 是 5 - 20mm, 
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到 8.13 立体 与 激光 传感器 关于 地 面 探 测 的 对 照 ， 左 图 显示 由 激光 扫描 和 立体 
视觉 提取 的 摄像 机 的 输入 图 片 。 右 图 显示 了 它们 提取 的 范围 信息 
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在 接 下 来 的 部 分 ， 将 提出 并 讨论 通过 使 用 一 对 仿生 视觉 传感器 的 立体 视觉 产生 
ii UR BE LB Zr iE 


8.5 运用 仿生 视觉 传感器 的 立体 视觉 


此 部 分 介绍 了 另 一 类 视觉 传 感 避 一 一 仿生 视觉 传感器 。 对 于 运动 物体 的 误 
差 估计 图 而 言 ， 这 些 传 感 器 允许 使 用 小 型 立体 智能 摄像 机 来 估计 运动 物体 稀 下 C 
深度 (视差) 图。 一 对 瞬 态 视觉 传感器 "| 被 作为 前 端 元 件 来 使 用 。 这 种 传 感 
如 包括 一 个 自主 的 ， 自 发 信号 像素 (autonomous, self-signaling pixels) 组 成 的 
阵列 ， 它 异步 地 啊 应 了 局 部 亮度 的 暂 态 变化 ， 并 且 使 用 稀 疏 输出 表示 法 对 实现 
了 完全 去 元 余 的 可 视 化 信息 进行 描述 。 瞬 态 传感器 对 某 些 应 用 而 言 是 一 种 比较 
合理 的 选择 ,例如 在 很 大 的 静止 背景 上 有 频繁 运动 的 场景 。 使 用 稀 玖 编码 的 可 
视 信 息 的 片上 预 处 理 ， 人 允许 在 一 个 嵌入 式 低 功 耗 DSP 上 实现 非常 密集 的 立体 
深度 计算 。 


8.5.1 系统 结构 


目前 般 入 式 瞬 态 立 体系 统 的 硬件 体系 ， 如 图 8. 14 所 示 ， 主 要 由 以 下 功能 单元 
组 成 : 两 个 光学 瞬 态 视觉 传感器 (TVS) 作为 感知 元 件 ， 缓 冲 单元 由 多 路 转换 顺 与 
先进 先 出 的 存储 器 构成 ， 还 有 一 个 DSP 数字 处 理 单元 。 

参考 文献 [317, 304] 使 用 的 瞬 态 视觉 传感器 (TVS) 由 一 个 128 x 128 像素 
阵列 组 成 ， 内 部 使 用 了 0. 35m AY CMOS 技术 。 这 是 一 个 小 巧 的 连续 时 间 感 光 器 
件 ， 它 的 每 个 像素 适应 于 背景 照明 ， 并 且 能 跟随 短暂 的 照明 变化 。 作 为 一 种 通信 协 
议 !51， 使 用 了 地 址 事件 表示 法 (Adress Event Presentation, AE) 。 

瞬 态 视觉 传感器 产生 的 地 址 事件 与 数字 信号 处 理 器 异步 通信 。 总 线 判 优 融 把 它 
们 传送 到 多 路 转 接 器 单元 中 ， 通 过 从 左右 传感器 交替 选择 地 址 事件 ， 多 路 转 接 器 完 
成 了 循环 调度 功能 (round robin scheduling， 轮 叫 调动 ， 循 环 调动 ) 。 随 后 ， 它 们 通 
过 先进 先 出 缓冲 存储 器 被 送信 到 数字 信和 号 处 理 器 中 。 数 字 信和 号 处 理 器 接收 到 的 每 个 
地 址 事件 都 被 加 上 了 lms 或 更 小 的 处 理 器 时 钟 周期 精度 的 时 间 标 签 ， 地 址 事件 数 
据 在 随后 的 处 理 中 被 用 作 输 入 流 ， 详 细 的 内 容 将 在 接 下 部 分 介绍 。 

立体 处 理 算法 的 主要 步骤 包 插 矫正， 匹配 ,视差 计算 , 算法 由 BLACKFIN 
BF537 DSP 实现 ， 这 个 数字 信和 号 处 理 器 来 自 AD 公司 ,频率 是 600MHz， 具 有 32MB 
SDRAM 和 4MB 片上 闪存 。 肯 入 式 系统 支持 以 太 网 卡 功能 ， 功 耗 大 约 4 双 。 这 个 系 
统 可 以 用 作 小 型 的 远程 单机 系统 ， 因 为 它 可 以 用 电池 或 太阳 能 供电 ， 而 且 输 出 数据 
可 传送 于 任何 主机 或 者 用 于 更 高 水 平 的 视觉 任务 的 网 络 客户 。 
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左 侧 视觉 传感器 右 侧 视觉 传感器 


128x128 像 素 128x128 像 素 
瞬 态 视觉 态 视觉 
PER 





图 8. 14 有 瞬 态 立体 视觉 传感器 的 硬件 体系 


8. 5.2 地址 事件 处 理 


与 普通 图 像 处 理 相 比较 ， 地 址 事件 处 理 是 基于 连续 帧 的 处 理 ， 现 有 算法 直接 对 
异步 地 址 事件 流 进行 处 理 。 地 址 事件 流 可 以 用 时 间 脉 冲 序列 进行 模拟 : 
AE Qu) = > AE(t,,) (8. 16) 


每 一 个 地 址 事件 流 能 够 发 生 在 0 <t, < oo 的 任意 时 刻 。 相 关 的 时 钟 信息 被 编码 
在 如， 与 实际 的 脉冲 形状 无 关 ， 因 此 单个 事件 可 以 写成 : 
AE(t,, WS, A ,O, ) =w, Ó(t— tos) Ôr 0 (8.17) 
所 以 每 个 地 址 事件 包含 了 发 生 的 时 间 信息 ， 也 包含 了 发 送 像素 *，，y， 的 适当 
坐标 和 极 性 w，。 虽 然 静止 场景 没有 输出 信号 ， 但 是 从 传感器 的 帧 描述 来 看 ， 运 动 
物体 被 描述 为 一 组 连贯 的 边缘 (如 图 8.16) 。 与 传统 的 基于 帧 的 数字 立体 处 理 方法 
相 比 较 ， 地 址 事件 的 计算 明显 更 有 效 ， 且 仅 需 要 较 少 的 内 存 和 计算 ， 因 为 这 种 应 用 
不 需要 动态 场景 的 密集 视差 信息 。 


8.5.3 基于 地 址 事件 的 立体 视觉 


实时 深度 估计 的 实现 算法 可 以 解决 计算 立体 视觉 的 主要 问题 ， 由 三 个 主要 步骤 
组 成 : 中 摄像 机 校准 和 矫正 ;@) 立 体 匹 配 计算 ; @@ 重 建 。 本 节 提 到 的 系统 已 经 实现 
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了 自 适 应 区 域 导 向 方法 ， 同 时 也 使 用 其 他 立体 匹配 过 程 。 

本 文 提出 的 立体 匹配 算法 如 图 8. 15 所 示 。 因 为 这 个 过 程 处 理 地 址 事件 ， 因 此 
和 传统 的 立体 视觉 系统 有 明显 不 同 。 区 别 如 下 : 中 地 址 事件 需要 用 特殊 的 方法 来 积 
Zi (accumulated) ， 目 的 是 为 了 找 出 左右 传感器 信息 重要 的 相关 性 ; QAR EIT 
只 能 由 相关 的 传感器 阵列 来 完成 ， 这 有 助 于 将 所 需 的 处 理 器 资源 最 小 化 。 功 能 模 
R, 如 帧 组 建 ， 集 成 ， 地 址 事件 匹配 反映 了 这 些 不 同 ， 这 些 特点 对 于 把 地 址 事件 表 

达 为 合适 的 形式 并 且 为 接 下 来 的 相关 性 计算 准备 地 址 事件 数据 是 很 必需 的 。 此 外 ， 
为 了 利用 基于 地 址 事件 处 理 方法 的 优点 ， 我 们 修改 了 使 用 标准 化 区 域 导向 算法 的 立 
体 相 关 性 计算 方法 。 
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到 8.15 用 于 瞬 态 视觉 传感器 的 立体 匹配 模块 算法 














校准 :摄像 机 校准 可 以 通过 应 用 平移 因子 来 实现 ， 例 如 将 对 共 轿 核 线 对 变 为 一 
A EARUM, 

帧 组 建 : 因为 地 址 事件 数据 流 是 异步 的 ， 帧 组 建 模块 用 于 把 持续 的 DT 时 间 内 
的 地 址 事件 按时 间 段 进行 划分 ， 称 之 为 帧 。DT 决定 了 三 维 传 感 咒 系统 的 时 间 分 辩 
率 ， 它 是 一 个 可 变 参 数 ， 可 以 参考 场景 的 特征 时 间 尺 度 和 时 间 视 觉 传感器 俩 置 值 的 
设 定 来 选 定 这 个 参数 。 这 种 系统 中 典型 的 DT 值 在 5 ~50ms， 如 果 与 传统 的 基于 帧 
的 立体 视觉 系统 相 比较 ， 这 就 等 同 于 200 ~ 20fps 的 有 效 帧 速率 。 

积分 : 这 些 地 址 事件 是 由 它们 的 像素 坐标 和 极 性 〈 开 和 关 ) 累加 获得 的 。 在 
时 间 ADT 和 位 置 (x, y) 累计 的 事件 速率 信息 包含 在 AE,, 的 幅 值 中 ， 如 下 式 : 


(k+1)DT 
AE (EDT;x,y) = |. AEP(t x, y) dt (8.18) 


这 里 , k=0, 1, 2; AE, (ADT; x, y) 是 一 个 单个 AE 在 时 间 t, Bin 
(x, y) 处 的 极 性 。 关 是 -1， 开 是 +1。 
地 址 事件 匹配 : 事件 是 以 列表 的 形式 存储 的 ， 每 一 帧 包含 在 DT 时 间 范 围 内 脉 
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冲 信号 的 像素 参考 值 。 这 个 功能 模块 要 通过 搜索 左 视 觉 传感器 的 每 一 个 脉冲 像素 以 
及 它 在 右 视觉 传感器 中 的 对 应 脉冲 像素 来 获得 可 能 的 匹配 集 。 搜 索要 在 参考 核 线 
(在 两 个 传感器 阵列 的 相同 行 ) 和 视差 范围 来 进行 ， 进 而 产生 一 个 匹配 候选 集 列 
表 。 这 样 ， 可 以 直接 读 取 相关 阵列 区 域 ， 避 免 了 对 整个 阵列 进行 相关 性 计算 。 进 而 
扫描 左边 阵列 中 的 像素 ， 通 过 评价 相似 性 测度 来 获得 右边 阵列 中 与 之 最 匹配 的 点 ， 
这 个 过 程 对 沿 着 每 一 个 传感器 线 的 AE (地 址 事件 ) 重复 进行 。 

相关 性 计算 : 立体 匹配 过 程 是 一 个 优化 过 程 ， 它 要 在 相似 性 测度 的 基础 上 ， 
从 左右 输入 的 两 个 累计 事件 速率 中 找到 最 佳 的 视差 ds。 

d, max, < F( AE” (kDT;x,y), AE? (kDT;x,y)) > (8. 19) 

我 们 使 用 并 测试 了 几 种 不 同 的 相似 性 测度 ， 例 如 归 一 化 互相 关 ， 二 次 方 和 以 及 
census 变换 5581 ， 但 是 性 能 最 好 的 是 归 一 化 绝对 差 之 和 (Normalized Sum of Absolute 
Differences，NSAD ) ， 这 种 方法 是 与 地 址 事件 (AE) 特性 相关 的 自 适应 匹配 算法 。 
给 定 视 差 4， 根 据 NSAD 值 ， 可 以 评价 匹配 的 质量 ， 定 义 如 下 : 
XB. 48 | AE: (x,y) - AE? (x * d,y) | 


NSAD(d) z 
(4) = B, 2s AE Go) * AE' (x diy) 








(8. 20) 


B 定义 为 匹配 核 (kemal) 的 大 小 ( 它 已 被 设 定 为 15 x15), AE" (x, y), AE" 
(x, y) 是 分 别 在 左右 传感器 得 到 的 像素 地 址 (x, y) AE 之 和 。 

相 容 性 检测 : 立体 匹配 由 左右 匹配 来 完成 ， 即 对 左 帧 每 个 阵列 元 素 计 算 相关 
性 ， 可 以 得 到 右 帧 与 之 匹配 的 元 素 。 相 容 性 检测 调整 相关 性 计算 以 减少 从 右 到 左 的 
像素 匹配 数量 。 这 样 能 够 增加 结果 的 可 靠 性 ， 并 且 还 有 助 于 消除 由 于 重叠 而 缺少 深 
度 信息 区 域 的 错误 匹配 。 

匹配 搜索 与 优化 : 匹配 搜索 和 最 优化 其 实 就 是 一 个 优化 问题 ， 它 是 通过 对 整个 
阵列 行 求 取 最 小 的 相关 和 来 获得 每 一 个 像素 的 最 佳 视差。 

MARAKE: 通过 收集 所 有 像素 的 单个 视差 构建 视差 图 。 图 8. 16 给 出 
一 个 稀 疏 视差 图 的 实例 。 




















到 8.16 集成 地 址 事件 描述 ( 左 和 中 ) 的 监视 物体 的 深度 轮廓 实例 以 及 由 此 产生 的 稀 玻 
深度 图 CR) (为 了 使 地 址 事件 数据 可 视 ， 累 计 计 算 了 20ms 的 事件 ， 并 以 视频 帧 形式 存储 ) 
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重建 : 最 后 ， 利 用 视差 图 和 立体 视觉 系统 几何 学 ， 完 成 每 一 个 像素 的 深度 信息 
计算 ,实现 重建 步骤 。 深 度 信息 可 以 提取 出 来 并 且 通 过 使 用 三 角 等 式 的 第 三 坐标 来 
Am: 








z(a) =F (8.21) 
这 里 ，/ 是 系统 物镜 的 焦距 ; 基线 了 是 传 感 锅 〈 焦 点 ) 间 的 距离 ; d 是 视差 。 
8.5.4 立体 瞬 态 视觉 传感器 的 评价 


我 们 在 实际 环境 和 室内 环境 中 对 本 文 提出 的 立体 视觉 系统 进行 了 测试 。 图 
8.16 显示 的 是 一 个 典型 的 测试 结果 : 左边 和 中 间 的 图 分 别 显示 了 由 左右 传 感 顺 捕 
捉 到 的 移动 的 人 影 ， 这 是 按照 式 (8.18) 计算 出 的 事件 ， 左 中 两 图 显示 了 由 左右 
瞬 态 视觉 传 感 融 捕捉 到 的 运动 的 人 影 。 

黑色 像素 和 白色 像素 分 别 对 应 于 关 事 件 和 开 事 件 。 灰 色 区 域 表 明了 没有 地 址 事 
件 产 生 。 右 图 中 描绘 出 相对 应 的 稀 玻 深度 图 。 深 度 值 编码 为 灰 度 值 。 最 亮 的 灰色 对 
应 于 离 传感器 最 近 的 物体 ， 而 最 暗 的 灰色 物体 则 远离 传 感 顺 。 

































































8.6 小 结 


在 本 章 中 ， 我 们 讲述 了 基于 SAD 算法 和 census 变换 的 立体 视觉 。 这 两 种 算法 
可 以 用 般 入 式 硬件 系统 实现 。 因 此 ， 我 们 讲述 了 如 何 使 用 FPGA 架构 实现 算法 。 此 
外 ,我们 展示 了 如 何 使 用 census 变换 降低 算法 的 复杂 性 。 我 们 也 提供 了 非常 有 趣 
的 能 入 式 立 体 视觉 应 用 的 综述 。 最 后 ， 我 们 提出 了 肯 入 式 立 体 算 法 的 体系 和 实现 ， 
这 些 算 法 使 用 了 仿生 视觉 传感器 。 在 首次 尝试 中 ， 使 用 了 类 帧 式 立体 匹配 。 我 们 期 
望 进一步 研究 在 基于 事件 的 立体 视觉 技术 中 更 好 地 利用 TVS 传感器 的 稀 玖 数据 
描述 。 

致谢 ”本文 收 到 了 来 自 欧 洲 团体 第 六 框架 规划 (FP6/2003-2006) 的 资助 ， 资 
助 号 FP-6-2006- IST-6-045350 








第 4 部 分 
用 于 智能 摄像 机 的 计算 机 视 帝 


of DHE 视频 监控 中 的 目标 定 摄像 机 


Roman Pflugfelder and Branislav Mi ču š íR 


摘要 : 本 章 介绍 视频 监控 系统 摄像 机 内 部 参数 的 标定 。 摄 像 机 具体 参数 (如 
焦距 ) 的 标定 ， 是 测量 问题 的 硬指标 ， 例 如， 测定 一 辆 车 的 速度 。 然 而 ， 它 也 能 
够 改善 目标 分 类 ， 目 标 检测 以 及 目标 跟踪 的 性 能 。 在 处 理 和 跟踪 物体 的 多 摄像 机 系 
统 中 ,摄像 机 间 的 几何 结构 变 得 越 来 越 重要 。 我 们 提出 标定 背后 的 基本 几何 概念 ， 
进而 显示 摄像 机 、 场 景 和 图 像 中 的 哪些 信息 在 实现 自动 标定 中 是 必需 的 。 自 标定 将 
成 为 未 来 智能 摄像 机 实际 应 用 中 的 关键 技术 。 





























9.1 简介 





近年 来 ， 视 频 监控 无 处 不 在 。 每 天 都 会 有 数 以 百 计 的 新 型 监控 摄像 机 问 市 。 观 
看 如 此 数量 之 大 的 视频 数据 是 不 可 能 的 ， 因 此 自动 视频 分 析 技 术 就 变 得 很 重要 。 在 
单一 和 多 摄像 机 视图 中 ， 自 动 视频 分 析 的 基本 任务 是 目标 物体 的 检测 (识别 ) 和 
跟踪 。 显 然 ， 为 了 覆盖 大 范围 的 环境 ， 就 必需 有 多 台 摄 像 机 。 通 过 多 台 摄 像 机 观察 
同一 环境 会 引入 重要 的 视觉 元 余 ， 这 可 大 大 提高 目标 检测 和 目标 跟踪 的 鲁 棒 性 和 准 
EU, 

ERN H PRE ARRE — PAE E RADER, H A AN TA ETE 
发 实际 系统 时 ， 是 否 仅仅 依靠 视觉 信息 就 可 以 完成 这 些 任务 。 通 常 ， 监 控 系统 网 络 
中 的 摄像 机 是 随意 放置 的 ， 但 是 在 邻近 区 域 ,， 人 彼 此 的 视野 则 没有 重 针 或 仅 有 很 小 部 
分 重合 ， 这 样 可 以 最 大 限度 地 提高 整体 空间 的 监控 范围 。 已 知 的 摄像 机 之 间 以 及 摄 
像 机 与 环境 之 间 的 几何 关系 (如 摄像 机 校准 )， 有 益 于 克服 潜在 目标 分 类 和 匹配 所 
带 来 的 基本 配 准 问题 。 此 外 ， 基 于 几何 校准 目标 和 环境 特征 的 目标 分 类 比 基 于 
投影 失真 图 像 的 目标 分 类 效果 要 更 好 。 

可 以 通过 以 下 方式 对 整个 摄像 机 系统 进行 描述 : 中 外 部 摄像 机 参数 (摄像 机 
的 姿态 ， 外 参数 以 及 外 部 方向 ) : 相对 于 一 个 普通 坐标 系 的 每 个 摄像 机 的 位 置 和 方 
向 。@) 内 部 摄像 机 参数 〈 内 参数 以 及 内 部 方向 ) ， 主 要 是 焦距 。 利 用 校准 目标 程序 
来 获得 所 有 参数 是 很 费时 间 的 ， 而 且 需 要 专家 来 完成 ， 所 以 当 摄像 机 数目 增多 时 ， 
这 种 方法 就 更 不 可 取 了 。 因 此 ， 研 究 人 员 一 直 注 重 自 标定 方法 ， 旨 在 使 摄像 机 尽 可 
能 地 自动 完成 标定 。 

在 多 摄像 机 的 情况 下 ， 如 果 视 野 重合， 自 标 定 法 会 通过 自动 建立 多 视野 中 点 的 
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匹配 来 取代 定 标 靶 。 如 果 没 有 重合 ， 且 摄像 机 离 得 很 近 ， 通 常 把 移动 物体 的 运动 轨 
迹 当 作 平滑 的 匀速 运动 。 如 果 只 有 一 个 视 场 ， 则 场景 先 验 知识 (如 公共 地 平面 、 
灭 点 以 及 目标 大 小 ) 会 给 标定 提出 必要 的 约束 '" 。 自 标定 法 的 低 于 定 标 靶 离线 法 
的 精度 ， 但 是 ， 它 是 一 种 误差 足够 小 的 蔡 代 方法 ， 可 以 进一步 完成 图 像 跟 中 和 检测 
物体 的 任务 。 

本 章 仅 限于 讨论 视频 监控 摄像 机 的 内 参数 自 标定 法 。 首 先 ， 我 们 给 出 了 在 自 标 
定 过 程 中 用 到 的 基本 的 几何 概念 。 其 次 ,我 们 列举 了 大 量 参考 文献 来 说 明 相关 的 重 
要 工作 和 关键 原理 。 最 后 ， 我 们 给 出 了 实例 ， 来 说 明 摄像 机 标定 中 的 基本 问题 : X 
点 检测 及 其 相关 应 用 。 如 果 读 者 想 进 一 步 了 解 外 部 标定 ， 有 时 也 称 之 为 摄像 机 定 
位 ， 可 以 参考 第 13 章 。 








9.2 定义 与 背景 


本 小 节 我 们 将 简要 介绍 射影 几何 中 的 基础 知识 和 传统 定义 中 的 重要 几何 概念 。 
更 深入 的 介绍 可 以 参见 参考 文献 [173, 229, 346, 15, 479], 


9.2.1 点 、 线 和 二 次 曲线 


与 欧 几 里 德 平面 的 二 维 坐标 不 同 ， 射 影 平 面 的 点 是 一 个 具有 齐 次 坐标 的 三 维 变 
E, x = (x x, x) 。 投 影 点 通过 [x]、= (xx xx, 1) 被 投影 到 欧 几 里 德 平面 ， 
因此 ， 投 影 点 之 间 相 差 了 一 个 非 零 的 比例 因子 入， 而 且 [x], = [Ax] o KWH, 
在 射影 空间 中 ， 点 也 可 以 由 四 维 变量 表示 。 同 样 ， 射 影 平面 上 的 线 也 可 由 三 维 向 量 
T= (05253) 表示。 向量 坐标 是 标准 直线 方程 的 系数 。 

T'x=0 (9.1) 

上 式 是 点 与 线 的 统一 表达 。 这 样 就 定义 了 标准 直线 方程 以 及 投影 线 ， 可 相差 一 
个 非 零 比例 因子 。 

两 个 点 xz 和 x, 定义 了 一 条 直线 . 

I-x,xx, (9.2) 

这 是 一 个 线性 关系 。 与 欧 几 里 德 平面 中 的 二 次 三 角 关 系 相 比 ， 这 里 的 线性 化 是 
齐 次 表达 形式 的 一 个 优点 。 

欧 几 里 德 平面 的 二 次 曲线 ， 例 如 椭圆 形 或 贺 形 ， 是 由 二 次 曲线 方程 描述 的 : 

eux, + €)% 1X5 + 05%, +€4X%, CX, +e, =0 (9.3) 

这 个 公式 描述 的 二 次 曲线 和 点 是 重合 的 ， 相 当 于 标准 直线 方程 相差 一 个 比例 因 
T. HI x xs, xx BUS x 和 x,， 通 过 引入 齐 次 坐标 ,产生 投影 二 次 曲线 方 
程式 : 








2 2 2 
CX, t CX X  C4X, 十 C4X1X3 十 C5%2X3 cux, =O (9.4) 


或 更 方便 地 写成 双 线性 方程 : 
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x'cx =0 (9.5) 
其 中 6 个 系数 可 以 简洁 地 用 和 矩阵 表示 : 
(2c, Cy C4 ) 
c= Y €; 2€ Cs 
(6 6; 26) 


二 次 曲线 在 空间 中 与 (二 次 ) 曲面 有 相似 之 处 。 
9.2.2 无 穷 远 


齐 次 坐标 的 男 一 个 重要 优点 是 点 、 线 和 二 次 曲线 在 无 穷 远 处 的 表示 方法 。 例 如 
一 个 无 限 远 的 平面 点 有 一 个 零 齐 次 坐标 ， 并 且 可 以 描述 平面 上 的 方向 。 可 以 选择 一 
对 点 xi 和 x, 来 计算 平面 在 无 穷 远 处 的 线 。 

Le (4 a0)" X(x4,0) =A(O0O01)" (9. 6) 

该 方程 表明 不 论 我 们 选择 哪 一 对 点 ， 对 于 特定 的 平面 工 。 都 是 一 样 的 ， 因 为 所 
有 可 能 的 平面 方向 最 后 都 是 一 条 线 。 请 注意 ， 要 区 分 不 同 平面 是 不 可 能 的 ， 除 非 参 
照 系 是 欧 几 里 德 三 维 空间 : 因此 L, 是 一 个 常 向 量 。 

同样 ， 无 穷 远 点 ， 三 维 点 是 一 个 四 维 向 量 ， 代 表 空 间 中 所 有 可 能 的 方向 ， 例 
如 ， 如 果 宇 宙 是 我 们 所 处 的 空间 ， 那 么 在 天 空中 
所 有 的 星星 构成 无 限 空间 的 特定 方向 。 天 空 是 一 
个 几何 球体 ， 被 称 为 无 穷 远 处 的 平面 IL, (如 图 
9.1)。 所 有 无 穷 点 的 平面 点 构成 了 所 有 可 能 的 
无 穷 远 的 空间 点 ， 因 此 组 成 A, 

TT 内 购 两 个 重要 的 几何 实体 : 虚 圆 点 和 绝 
对 二 次 曲线 ， 它 们 包含 了 内 部 标定 的 场景 信息 。 
L, 和 所 有 了 欧 几 里 德 平 面 都 有 两 个 复 共 斩 虚 圆 点 ， 
X,=(1i10)"WRX,=(1-i0)", BARE 
上 每 一 个 可 能 的 圆 和 工 . 的 交叉 点 。 圆 是 当 c = 
TILA LR deNbRa gie, TA ASE mR 

i PENT ES german RR. T 是 一 个 理论 上 

当 我 们 把 参考 系 从 平面 转 到 空间 时 ， 一 个 几 的 几何 结构 ， 在 无 穷 远 处 将 空间 圭 
何 实体 一 一 ,上 出 现 了 绝对 二 次 曲线 Q， 在 这 闭 起 来 。 两 个 圆周 点 XX, 和 XY, 有 特殊 
种 情况 下 ， 它 是 由 所 有 可 能 平面 上 的 所 有 可 能 虚 意义 它们 构成 度量 属性 如 角度 和 
圆 点 组 成 的 。 以 和 和 马 为 例 ，Q@Q 实际 是 一 个 以 i 线 比 率 。 这 两 点 是 无 穷 远 处 平面 的 
为 半径 的 圆 ， 即 Q 21 是 一 个 3 x3 的 单位 矩阵 。 线 和 构成 空间 所 有 平面 的 绝对 二 次 
空间 每 一 个 特定 平面 的 工 。 与 平面 曲线 Q 相交 于 曲线 2 (由 空间 所 有 可 能 平面 的 虚 
两 个 虚 圆 点 (图 9. 1) 。 参 考 文献 [174] 介绍 了 PAER) 的 交点 。 




















图 9.1 欧 几 里 德 三 维 空间 中 每 一 个 
平面 五 与 无 限 远 平面 IL, 相交 于 一 
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Q， 它 在 内 部 标定 中 起 了 重要 的 作用 (9.3 节 ) 。 
9.2.3 透视 摄像 机 模型 
透视 投影 是 最 常见 的 摄像 机 模型 ， 由 以 下 方程 描述 : 





àx = PX (9.7) 
它 在 射影 空间 上 , 把 外 点 (投影 映射 到 图 像 平面 上 的 一 点 。P 分 解 为 
P-KR|I, -C] (9.8) 
HP, RE. 
f 5 Pi) 
K= 0 f p 
(0 0 1J 


包含 摄像 机 的 内 部 参数 ，R 是 代表 摄像 机 方向 的 3 x 3 正 交 矩阵 ，C 是 一 个 代表 摄 
像 机 位 置 的 三 维 向 量 。 方 向 和 位 置 是 摄像 机 的 外 部 参数 ， 它 表达 了 摄像 机 相对 于 任 
何 已 定义 的 坐标 系 的 位 置 。 其 内 部 参数 分 别 是 : 由 通过 C， 视 线 与 图 像 平面 的 垂直 
相交 点 〈 主 点 ) 了 P= (pip,) ; @) 焦 距 / 是 坐标 系 中 沿 着 光 轴 测量 C 和 PP 之 间 的 距 
离 ; OARE r; 由 像素 的 切 向 比 * (RFE). 


9.2.4 镜头 畸变 


小 焦距 到 中 等 焦距 的 镜头 ， 通 常会 导致 图 像 失真 。 内 部 标定 更 敏感 地 依赖 于 图 像 测 
量 ， 它 能 因为 小 畸变 而 产生 严重 的 错误 。 但 是 奇怪 的 是 ， 人 们 往往 忽略 镜头 的 畸变 。 

参考 文献 [115, 190] 讨论 了 几 种 畸变 模型 。 目 前 使 用 最 广泛 、 性 能 最 好 的 
是 一 阶 径 向 畸变 模型 ， 它 是 关于 像素 位 置 、 畸 变 系 数 上 和 径 向 中 心 = (ey, co) 
的 多 项 式 函 数 。Zhang [593] 用 一 阶 多 项 式 证 明了 图 像 中 有 1/10 像素 的 平均 误差 。 
大 为 正 数 是 枕 形 失真 ,5 为 负数 是 桶 形 失 真 ， 进 一 步 , kK, RAK, Wap 
着 径 向 距离 的 增 大 而 增 大 。 

例如 ， 考 虑 图 像 中心 为 c 的 图 像 平 面 中 的 一 个 失真 点 x, = (xx) '。 未 失真 点 
x 表示 为 





(kaa SE (9.9) 
cc 
c, 既 不 是 摄像 机 主 点 也 不 是 图 像 中 心 , 而 代表 实际 的 镜头 ,因为 镜头 并 不 能 完美 地 
聚焦 中 在 图 像 传感器 之 上 。 
此 外 Devernay 和 Faugeras 在 参考 文献 [ 141 ] 中 证 明 ,图 像 传 感 器 的 横 纵 比 和 径 
向 畸变 模型 中 像素 的 横 纵 比 不 一 定 相 同 , 这 是 由 镜头 的 切 向 畸变 引起 的 。 径 向 模型 
适用 于 绝 大 多 数 的 实际 镜头 ,复杂 的 模型 更 容易 受到 噪声 干扰 ,因此 ,为 了 简化 模型 ， 
我 们 省 略 了 切 向 畸变 模型 。 参 考 文献 [7] 支 持 这 种 做 法 ,因为 当 包含 切 向 畸变 系数 
时 标定 会 不 稳定 。 
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径 向 畸变 不 影响 图 像 处 理 , 因 此 ,镜头 的 径 向 畸变 模型 的 参数 估计 与 内 部 参 
BME SIDA bee ACK ONT fie $e Bl May ES HI BBW, Devernay 和 Faugeras 在 参考 文 
献 [141] 中 利用 射影 变换 的 直线 度 不 变性 , 即 空间 中 针 孔 摄像 机 模型 的 直线 被 投射 
到 图 像 中 的 直线 。 该 方法 检测 短 边缘 并 且 把 多 边 形 尽 可 能 地 拟 合 到 它们 之 上 。 然 后 
通过 优化 失真 模型 参数 ,不 断 地 把 图 像 和 边缘 变 成 一 条 直线 ,直到 把 边缘 转化 为 最 适 
合 的 线段 。 这 种 方法 假设 人 造 世 界 中 存在 直线 边缘 ,完全 可 以 自动 实现 。 该 方法 的 
缺陷 在 于 多 边 形 拟 合 的 误差 水 平 。 如 果 该 值 过 大 ,该 算法 将 尝试 在 不 是 直线 图 像 的 
地 方 把 边缘 转变 为 线段 。 相 反 , 如 果 该 值 过 小 则 该 算法 将 无 法 成 功 。 

另 一 个 著名 的 方法 利用 了 投影 变换 '”'"| 后 所 有 平行 线 在 灭 点 相交 的 事实 。 这 一 
思想 植 根 于 摄影 测量 ,可 以 追溯 到 参考 文献 [88] 中 所 谓 的 “ 垂 线 法 ”。 这 种 方法 之 所 
以 有 用 是 因为 它 同时 检测 灭 点 ”52592011 Bräuer- Buchardt 在 参考 文献 [79 ] PRE 
计算 灭 点 和 失真 。 他 构建 了 一 条 通过 灭 点 和 线段 中 点 的 理想 直线 。 然 后 把 组 成 线段 
的 点 投影 到 直线 上 。 这 些 投影 点 和 原 有 的 点 可 以 用 来 估计 多 项 式 模型 的 系数 和 径 向 
中 心 。Pflugfelder 在 参考 文献 [421] 中 把 无 穷 远 平 面 的 单 应 性 矩阵 的 列 解释 为 两 两 
正 交 的 消失 点 。 内 部 标定 完 之 后 计算 消失 点 并 通过 减少 线段 的 端点 和 通过 灭 点 的 理 
想 直 线 之 间 的 标准 误差 距离 来 实现 镜头 无 失真 。 然 后 无 失真 线段 再 次 被 用 来 进行 内 
部 标定 (如 图 9. 2) 。 垂 线 法 的 不 足 之 处 在 于 它 要 求 场景 直线 和 正 交 结构 ,并 且 需 要 
特定 灭 点 的 结构 边缘 的 知识 。 














图 9.2 桶 形 失真 自动 降低 ” ,但 没有 完全 消除 ,因为 左上 角 的 图 片 部 分 分 辩 率 低 ( 弱 边 缘 信 息 ) 
a) 镜头 几何 校准 后 的 失真 图 像 b) 镜 头 未 经 几何 校准 的 图 像 


因此 ， 利 用 旋转 摄像 机 不 同 视野 之 间 的 对 应 点 匹配 的 消除 畸变 方法 适用 于 更 多 
场合 。 利 用 多 摄像 机 不 依赖 于 内 外 参数 标定 的 消除 畸变 方法 已 经 取得 成 功 …™ 。 
据 我 们 所 知 ， 目 前 还 没有 人 把 这 一 想法 用 于 旋转 摄像 机 。 

接 下 来 ， 让 我 们 假设 图 像 没有 径 向 失真 ， 这 意味 着 在 进一步 研究 中 ， 针 孔 摄 像 
机 模型 是 有 效 的 几何 模型 。 
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9.2.5 平面 和 无 穷 单 应 性 


一 步 约 束 P, Wok3 x3 的 单 应 性 和 矩阵 五 和 它 的 逆 和 矩阵 五 -! 是 投影 平面 上 的 
mu 例如 从 世界 坐标 平面 到 图 像 平 面 ， 反 之 也 一 样 。 
Ax'-Hx (9. 10) 
Ax -H^x! (9. 11) 
单 应 性 也 是 投影 平面 之 间 的 直线 的 映射 。 特 别 地 , 工 , 由 五 通过 公式 (9.12) 
映射 到 像 平面 的 像 一 一 消失 线 。 





AL,-H 'L, (9. 12) 
WA IRR, F H 的 透视 部 分 重建 。 二 次 曲线 的 投影 变换 也 类 似 。 
AC, =H "C,H" (9. 13) 


— EPR AY DC FF OE IE A PEE A, ， 通 过 下 式 将 空间 d 中 的 一 个 方向 投 
影 到 像 平 面 的 gy 点 〈 灭 点 ) : 
Av -H,d (9. 14) 
由 于 空间 方向 与 摄像 机 位 置 无 关 ， 瓦 。 并 不 是 通过 摄像 机 给 定 的 C 来 进行 射影 
变换 的 ， 事实 上 HH, = KR。 


9.3 内 部 标定 








内 部 校准 是 基于 参考 文献 "7” 的 一 个 重要 结论 一 一 用 投影 几何 的 语言 来 说 ,天 
的 估计 值 与 用 一 个 3 x3 EE o 描述 的 图 像 2 内 在 相关 ，w 和 矩阵 如 下 : 


w= 0; W3 Ws (9. 15) 


这 个 和 矩阵 被 称 为 IAC。 

上 一 节 作为 P 的 一 部 分 引入 了 五. ， 它 将 无 穷 远 几何 实体 映射 到 像 平面 ， 
此 ,我 们 由 下 式 将 w 写作 0 的 曲线 映射 。 

-H. OH =(KR) L(KR) =K "RR 'K -(KK")" (9.16) 

IAC 中 的 w 和 天 是 双 射 关系 ; 已 知 玉 可 以 直接 计算 出 w， 而 已 知 w 也 可 以 通 
iLABIEESK DEAN Cholesky Af FSS K, 50 一 样 ，w 是 虚 点 二 次 曲线 , 与 XK 不 
同 ， 可 以 直接 按照 约束 条 件 通 过 视觉 、 现 场 和 摄像 机 信息 进行 计算 。 

表 9.1 给 出 了 计算 w 的 五 个 充 要 条 件 。w 是 一 个 对 称 的 齐 次 3 x3 EME, BEN 
2， 因 此 有 6-1 =5 个 未 知 元 素 是 独立 的 ; eo 独立 元 素 的 个 数 等 于 的 未 知 元 素 的 












































Q 当 w 不 是 半 正 定时 ,Cholesky 因 式 分 解 失 效 。 视 觉 信息 含有 噪声 时 可 导致 这 一 问题 发 生 。 
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个 数 。 所 有 的 约束 条 件 都 是 线性 的 ， 
Ree ATW AME A 表示 (参见 参 
考 文 献 [229] 的 第 225 页 中 的 算法 
8.2) 未 知 数 w 的 一 个 齐 次 线性 方 
程 组 。 





Aw =0 (9.17) 
其 中 w = (w,…w。) 表示 未 知 数 。 
5 个 独立 的 方程 加 上 一 个 假设 | w ||, 图 9.3 HL EIL, 上 的 几何 实体 映射 到 像 平 面 。 例 
-1 得 到 一 个 特 解 。 例 如 ， 通 过 使 用 如 , Q ORUM S] co, 平面 上 的 虚 圆 点 被 映射 到 o 
SVD， 把 4 分解 成 4 -UDV 的 形式 。 上 的 T 点 和 J 了 点， 因此 受到 co 的 限制 。 
D 的 对 角 线 元 素 全 为 正 ， 非 对 角 元 素 
BAX. WA D 的 对 角 线 元 素 是 一 个 降序 排列 ,那么 wm 是 站 的 最 后 一 列 。 灵 活 地 
使 用 不 同 约束 条 «fF (信息 来 源 ) 的 特点 ,使 得 大 家 喜欢 用 这 种 方法 进行 内 标定 。 
男 一 种 方法 是 构造 中 元 素 的 二 次 三 三 角 约束 方程 ， 但 是 这 种 方法 显然 不 够 灵活 。 


表 9.1 具有 视觉 、 现 场 和 摄像 机 信息 的 o 的 计算 。 其 中 [ ] .是 斜 对 称 矩 阵 运 算 符 (9.22) 




























































































# 信 息 K RR 约 R 
1 两 个 正 交 消失 点 vlov,-0 1 
2 正 交 消失 线 和 点 [1] xov =0 2 
3 虚 圆 点 x'ox =0 1 
hi wh, =0 
4 单 应 性 h E 2 
hloh, - hToh, 
hi oh, =0 
f hloh, =0 
5 无 穷 远 单 应 性 ; 4 
hioh, =0 
hloh, - hToh, 
7 零 偏 差 (100) o (010)7=0 1 
8 长 宽 比 (1r0) æ (1-r0)7=0 1 
9 主 点 wp= (001) 2 











有 时 候 方程 会 超过 未 知 数 ， 这 会 产生 没有 解 的 过 约束 方程 系统 。 然 而 ， 使 得 
|| Aw || ,最 小 的 最 佳 近似 解 可 以 由 SVD 计算 出 来 ，SVD 成 为 了 求解 准确 约束 和 过 
约束 方程 组 的 便捷 工具 。 

我 们 仔细 观察 各 种 能 够 使 我 们 计算 出 o 的 信息 来 源 ， 有 些 关 系 是 相互 联系 的 ， 
我 们 将 讨论 这 些 交 又 关联 。 
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9.3.1 RA 


已 知 两 个 世界 坐标 中 方向 的 围 角 ， 它 们 的 灭 点 在 视觉 信息 和 场景 信息 分 析 中 有 具 
有 和 较 高 的 利用 价值 。 让 我 们 不 受 任 何 限 制 地 假设 世界 坐标 系 在 摄像 机 中 心 SERIE: 
摄像 机 坐标 系 ， 或 更 正式 , P=K [70] 。 摄 像 机 中 心 发 出 的 每 条 光线 都 有 其 特定 
的 方向 ， 因 而 在 世界 坐标 系 中 也 具有 特定 的 方向 。 这 些 射线 在 灭 点 穿 透 像 平面 。 直 
觉 上 ， 封 闭 角 告诉 我 们 ， 像 平面 到 摄像 机 中 心 的 最 短 距 离 是 焦距 ， 是 K 的 一 部 分 。 
可 以 这 样 想象 ， 更 多 的 射线 对 和 角度 将 能 计算 出 所 有 的 内 部 参数 。 

在 数学 上 ， 我 们 把 两 个 方向 d, fl d, 的 交角 用 由 表示 

d Od, 
cosh = (9. 18) 
/d 0d, Jd Qd, 
这 是 欧 几 里 德 空 间 的 所 有 方向 内 积 ， 即 2 =I。 通过 利用 把 这 些 方向 映射 到 它们 
的 消失 点 ,然后 用 o 取代 玉民 一 得 到 下 面 公 式 : 
(9. 19 ) 
[ve v, [oso v; 
这 是 未 知 量 w， 两 个 灭 点 〈 视 觉 信 息 ) 以 及 中 (场景 信息 ) 之 间 的 一 个 非 线性 
关系 。 

在 特殊 情况 p = 77/2 下 (如 图 9.4)， 上 述 关 系 简化 为 

vov, =0 (9. 20) 
这 是 未 知 量 co 的 为 双 线 性 关系 ， 但 可 以 重 构 为 线性 
关系 (等 式 9.17) 其 中 o h w MRR, ph 
关系 提供 了 一 个 对 o 的 约束 ， 因 此 ，5 个 独立 的 正 
交 灭 点 对 足以 计算 w。 

正 交 灭 点 也 告诉 我 们 摄像 头 对 于 地 界 坐标 系 的 图 9 4 正 交 方向 的 灭 点 相对 于 
相对 旋转 ; 正 交 灭 点 是 成 像 坐标 轴 世 界 坐 标 系 的 方 共 斩 正 交 ， 因 此 限制 了 ww。 例 如 ， 
向 。 改 变 了 像素 灭 点 的 位 置 会 改变 摄像 头 的 方向 。( 第 9.4 节 ) 世界 坐标 系 上 正 交 平 
不 幸 的 是 ， 如 果 没 有 更 多 场景 信息 ， 真 实 世界 中 的 MRIKA u 和 w 成 几何 影 
上 、 下 、 左 、 右 这 些 关 系 是 未 知 的 ， 则 绝对 的 旋转 像 , v 在 uw 关于 w 的 极 线 上 , u fev 
是 不 能 识别 的 9。 的 极 线 上 ， 极 线 分 别 由 通过 w 和 w 


| fit) co 的 切线 来 定义 〔 称 为 极点 ) re 
9.3.2 消失 线 和 消失 点 


已 知 的 世界 坐标 平面 法 线 的 灭 点 也 是 内 部 标定 的 信息 来 源 。 例 如 ， 在 图 像 中 的 




































































”真实 的 坐标 轴 方 向 是 无 法 确定 的 。 
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ko Ab 
ae 


能 摄像 机 





水 平 线 是 地 球 表面 的 消失 线 ， 这 就 给 摄像 机 的 平移 和 倾斜 提供 





有 提供 
的 信息 





了 参考 信息 





有 关 摄 像 机 旋转 和 内 部 参数 的 信 ， 





息 内 在 信息 。 较 远 的 灭 点 ， 能 提供 


， 但 它 没 
残缺 场景 


(世界 坐标 平面 法 线 ) 来 约束 o, 同时 也 提供 了 有 关 旋转 的 遗漏 信息 E. M 


形式 上 看 ， 


可 以 写 为 


[lj .wv=0 


(9.21) 


其 中 


[1], (9. 22) 





al 
ERE [AYR PEI, APER 
点 的 三 对 消失 线 足 以 计算 出 w。 
9.3.3 RAA 


确定 e 的 一 个 经 典 的 方法 是 提供 
下 的 公式 来 约束 o: 


L 0) 
了 两 个 对 o WARZI, Flite, BAEK 








一 个 明确 的 二 次 曲线 点 x， 这 个 点 可 以 通过 以 
x'wx =0 (9. 23) 
五 个 点 可 以 准确 地 定 出 w。 例 如 ,一 个 世界 平面 共 斩 虚 圆 点 7 和 7 的 像 (9.2 
35),BI 1-2 H. X, MJ 2 H, X, 就 是 这 样 的 点 ,这 是 因为 世界 坐标 平面 的 虚 圆 点 位 于 
绝对 二 次 曲线 中 (如 图 9. 3) 。 虚 圆 点 的 像 可 单独 由 场景 (世界 坐标 平面 ) 信 息 计算 
得 到 ,如 已 知 长 度 比 ,或 已 知 两 相交 直线 的 夹 角 或 已 知 世界 坐标 系 平面 中 两 对 相交 直 
ZEE fg 71. 。 确 定 至 少 3 个 世界 坐标 平面 的 虚 圆 点 就 足以 标定 出 内 部 函数 。 读 者 
也 应 该 想象 出 虚 圆 点 与 消失 线 像 间 的 坐标 交叉 连接 。 由 于 虚 圆 点 的 像 定 义 了 世界 坐 
标 平面 的 消失 线 , 可 以 间接 地 将 虚 圆 点 和 灭 点 结合 起 来 表示 世界 坐标 平面 上 的 法 线 。 
所 以 在 这 种 情况 下 消失 线 是 一 个 极 线 , 而 且 虚 圆 点 的 像 是 切线 和 o 的 两 个 交点 


9.3.4 平面 的 单 应 性 


在 世界 平面 与 像 平面 之 间 的 单 应 性 是 世界 坐标 平面 上 的 一 个 点 与 一 个 像 点 加 的 
双 射 转换 。 因 此 , 单 应 必须 捕获 关于 信息 ,必须 提供 关于 co 的 限制 ,当前 两 个 圆柱 
具有 下 面 的 性 质 ,这 将 非常 明显 : 

H=(hh,h,) = (A, v, àw h,) 
两 个 正 交 灭 点 确定 世界 坐标 平面 消失 线 OHAR o 产 





























(9.24) 
生 明 显 的 约束 条 件 (公式 














9.20), H 
hioh, =à à, vie v, =v wv, =0 (9. 25) 
h 和 有 hh,， 除 了 包含 正 交 灭 点 还 有 投影 深度 ， 可 对 o 进一步 约束 ， 即 
hioh, =h>oh, (9. 26) 
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这 种 关系 来 自 于 给 定 五 时 AA, AA, 之 间 的 依赖 关系 

< 本 (9.27) 

A, von, 

觉 上 , 五 决定 了 世界 坐标 系 中 某 两 个 水 平 轴 形 成 的 水 平面 ， 三 个 已 知 世 界 坐 标 
的 平面 以 及 其 诱导 的 单 应 性 足以 计算 出 w。 


9.3.5 无 穷 单 应 性 


,提供 了 与 平面 单 应 性 同样 的 约束 ， 因 此 我 们 对 平面 单 应 性 的 讨论 还 包括 
甩 。。 然 而 相对 于 平面 单 应 性 ，H, 最 后 一 列 也 可 以 理解 为 正 交 于 v, 和 w, 的 灭 点 ， 则 : 

















H, = (À, V À, 0, A; 9) (9. 28) 
由 此 得 到 下 面 四 个 附加 关系 式 : 
hi oh, =à à; 0,0 v, =v w v, =0 (9.29) 
hioh, = À À, 0,0 v, =0,0 =0 (9. 30) 
hioh, - hioh, (9.31) 
hioh, = h; wh, (9. 32) 





M Eminf EUER, HAT 6 个 约束 条 件 ， 应 该 相信 玖 .已 经 足以 计算 出 w， 与 
A,/A, 21 的 关系 相反 ， 瓦 .并 不 能 确定 A,AA， M AA, 的 关系 ， 因 为 人 们 可 以 用 任 
意 标 量 乘 以 A, ， 因 此 由 公式 (9.31) 和 公式 (9.32) 给 出 的 两 个 关系 并 不 是 独立 
的 。 因 此 ， 我 们 只 有 4 个 独立 的 约束 条 件 。 显 然 ， 在 世界 坐标 系 里 我 们 不 能 由 纵 轴 
和 任 一 横 轴 确定 两 个 垂 面 。 

9.3.6 摄像 机 信息 

灭 点 是 场景 的 属性 。 人 然而， 摄像机 本 身 的 一 些 特性 ， 如 已 知 K 中 的 一 些 元 素 ， 

又 可 以 大 大 简化 自 标定 程序 。 


现代 图 像 传 感 融 的 像素 长 宽 比 > 是 1 (方形 像素 ) 或 已 知 的 常数 ， 并 且 像 素 偏 
移 通 常 很 小 或 为 零 。 摄 像 机 的 信息 提供 了 两 个 独立 的 约束 条 件 : 






































(1 0 0)w(0 1 0)7=0 (0 RHITH RE) (9.33) 

(1 r 0)w(0 -r 0)"=0 (已 知 长 宽 比 ) (9. 34) 

有 些 方法 假定 主 点 是 图 像 的 中 点 ， 这 一 信息 提供 了 最 后 的 约束 条 件 ， 这 就 是 : 
wp=(0 0 1)' (9.35) 





读者 应 谨慎 使 用 这 一 约束 条 件 ， 因 为 主 点 与 中 点 之 间 的 偏离 通常 十 分 明显 ， 尤 
其 是 当 图 像 被 分 割 的 时 候 。 例 如 ， 在 关键 时 刻 ， 视 觉 和 场景 提供 的 可 用 信息 不 足以 
计算 w。 

9.4 自动 检测 图 像 的 特征 进行 自 标定 


我 们 现在 讨论 并 比较 可 自动 检测 的 图 像 特 征 与 所 选 定 的 环境 ， 这 些 图 像 特 征 与 
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环境 将 捕捉 到 的 必要 的 视觉 信息 ， 与 之 后 重要 的 灭 点 共同 得 出 先前 所 讨论 的 各 种 关 
系 。 由 于 摄像 机 的 空间 设置 ， 我 们 还 可 以 利用 其 多 视图 几何 线索 ， 运 动 线索 以 及 场 


9.4.1 多 视图 几何 线索 


局 部 描述 符 建 立 了 通过 更 多 视图 来 找 出 点 对 应 性 ， 如 SIFT! 或 MSERL9 , 
在 IAC 上 传达 约束 ， 因 此 ， 可 以 估算 出 内 部 参数 。 非 旋转 标准 的 摄像 机 在 自 校准 
方面 还 有 大 量 的 工作 ' 宕 ;| 。 然 而 ， 在 视频 监控 的 应 用 中 ， 由 于 按照 视 场 统一 布置 摄 
像 机 ， 多 视图 几何 线索 经 常 不 可 能 被 使 用 。 也 有 一 个 例外 ， 就 是 云 台 摄像 机 经 常 应 
用 于 监控 领域 ， 在 这 一 应 用 领域 ， 点 匹配 有 助 于 计算 出 图 像 之 间 的 单 应 性 矩阵 ， 而 
这 些 图 像 都 是 由 同一 摄像 机 从 不 同 的 角度 所 拍摄 的 。 这 一 标准 方法 在 参考 文献 
[6, 229] 详细 地 进行 了 阐述 。 


9.4.2 运动 线索 


运动 目标 (如 行人 与 车 辆 ) 是 另 一 种 视觉 信息 的 来 源 ， 如 图 9.5。 在 一 个 有 主 
背景 平面 的 场景 中 ， 人 实质 上 是 等 高 的 垂直 线段 ， 在 不 同位 置 对 同一 个 人 进行 测 
度 ， 也 就 相当 于 给 出 了 世界 坐标 系 中 平行 且 等 长 的 线段 和 一 些 垂 线 ， 这 些 垂 线 定 义 
了 正 交 于 背景 平面 的 垂直 灭 点 。 另 外 ， 多 对 秆 直线 段 上 端点 与 下 端点 的 连接 线 都 是 
平行 的 ， 它 们 的 像 相 交 于 背景 平面 的 消失 线 的 像 上 。 既 不 共 线 也 不 相同 的 位 置 提供 
了 一 些 清晰 的 灭 点 ， 这 些 点 构成 了 消失 线 。 

JURE IE E, ZEST fh O 29728 Y E. Lv, Zhao 和 Nevatia ^?! ft HH— PR 
踪 的 方法 记录 了 多 次 观察 一 个 人 在 场景 中 移动 的 信息 。 通 过 对 同一 个 点 多 次 观察 可 























图 9.5 运动 线索 。 经 过 一 段 时 间 的 运动 目标 跟踪 ,可 以 提供 关 
于 环境 结构 的 大 量 信息 。 图 片 通过 http: //www. flicker. com 下 载 
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以 估计 出 地 平 线 与 灭 点 。 但 对 于 异 销 轨 线 不 具有 和 角 棒 性 。Krahnstoever 与 Mendon- 
cals51 提 出 了 概率 的 方法 ， 完 整 的 单 应 性 被 分 解 ， 从 而 提取 灭 点 与 水 平 线 。 这 种 单 
应 性 的 计算 依赖 于 背景 平面 中 不 同方 向 上 行人 的 所 有 方位 2 。 这 种 单 应 性 的 计算 方 
法 比 直 接 估计 水 平 线 与 灭 点 的 方法 更 加 准确 ,但 因 这 种 方法 本 身 就 是 非 线 性 的 ， 
Junejo 与 Foorosh ^9! 提出 一 种 基于 单 应 性 的 线性 且 和 鲁 棱 的 方法 。 

车 辆 是 另 一 类 可 被 跟踪 的 实物 。 例 如 ，Bose 与 Grimson'”| 利 用 假设 恒 速 的 方法 
算出 了 道路 的 圆 点 。Pflugfelder 与 Bischof ^! 使 用 卡车 的 立方 体形 式 计 算出 三 个 正 
交 灭 点 。 

尽管 鲁 棒 性 检测 已 有 了 很 大 的 进步 ， 三 种 方法 仍然 缺乏 准确 性 ， 尤 其 是 在 一 些 
关键 的 情况 下 ， 例 如 ， 像 平面 正 交 于 地 平面 。 更 进一步 地 ， 内 部 函数 与 实际 地 面 的 
相对 误差 超过 了 5% 。 


9.4.3 场景 线索 


通常 建筑 物 与 房间 有 直线 、 平 行 和 正 交 等 细节 ， 例 如 ， 窗 框 与 地 板 的 边缘 自 图 
像 中 仍 是 直线 ， 平 行 和 正 交 不 会 经 摄像 机 的 投影 所 保存 ; 因此 ， 平 行 边 会 相交 于 单 
个 的 灭 点 ， 直 和 角 会 以 任意 形式 出 现 。16 世纪 ， 画 家 们 应 用 这 些 几 何 属性 在 绘画 中 
表达 现实 主义 ， 通 过 在 绘画 中 强调 正 交 灭 点 反映 透视 定律 。 

内 部 标定 恰恰 相反 。 针 对 人 为 假设 的 某 种 结构 ， 人 们 试图 寻找 一 些 方 法 能 够 自 
动 检测 灭 点 以 及 上 自动 计算 与 摄像 机 的 自转 尽 ， 这 被 看 作 目 标的 标定 ， 这 种 结构 作 
为 线段 的 映像 ， 而 这 些 线段 能 够 被 常用 线段 摄像 机 检测 器 发 现 !” 。 最 早 尝试 检测 
灭 点 的 方法 得 追溯 到 20 HE 70 年 代 ， 灭 点 通过 在 绘画 中 检测 方法 的 综述 在 参考 文 
BK [421], 

灭 点 通 带 是 远离 图 像 中 心 的 。 几 乎 所 有 的 方法 都 将 线段 作为 信息 源 来 计算 灭 
点 ， 形 成 并 行 线 的 线段 中 发 生 的 小 误差 对 灭 点 的 位 置 有 很 大 的 影响 。 事 实 表明 ， 发 
明 一 种 准确 检测 的 方法 很 难 。 

Caprile 与 Torre 的 工作 对 基于 灭 点 的 内 部 标定 起 了 重要 的 作用 ， 他 们 使 用 立方 
体 的 边缘 来 计算 图 像 中 的 三 个 正 交 有 效 灭 点 。 再 加 上 有 零 偏 移 与 长 宽 比 不 变 ， 他 们 能 
估计 出 焦距 与 主 点 ， 经 过 仔细 地 研究 文献 ， 我 们 可 概括 如 下 : 

CD 首先 在 投影 面 上 定位 灭 点 ”30343 中。 某 一 齐 次 矢量 既 表 示 有 限 点 又 
能 表示 无 限 点 ， 从 图 像 面 映射 到 一 个 球面 2,46.38,436.0834 840449456,9.208301 或 者 是 到 
Tuytelaars 的 子 空间 都 不 保存 其 距离 ， 因 此 ， 成 本 函数 可 以 是 任意 小 旦 平坦 。 

(2) 图 9.6 比较 了 由 相交 线段 计算 灭 点 的 几 种 方法 。 这 种 相关 误差 的 距离 测度 
具有 多 种 形式 。Liebowitz i222 HR BAP PP POON 与 图 像 平 面 上 灭 点 的 位 置 无 关上 且 效 果 




















O 图 像 中 两 个 平行 坐标 平面 之 间 的 单 应 性 。 
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较 好 (i) «AWO. (qu) 可 优化 的 高 斯 误差 模型 ; (un) 是 连续 二 阶 的 ; (v) 是 
二 次 的 。 





Liebowitz 





—6000 —4000—2000 0 2000 4000 6000 8000 1200 12101220 1230 1240 12501260 1270 
uR u/ 像 素 
a) b) 


图 9.6 对 可 能 相交 的 点 做 了 比较 
a) 在 平均 数 意义 上 具有 很 大 的 不 确定 性 b) 局 部 显 微 放 大 图 

a) 在 两 两 合成 的 线段 之 间 的 相交 点 的 平均 数 (图 中 明显 的 十 字形 ， 在 w 方 向 上 的 相对 误差 
为 4.57% ， 在 "方向 上 的 相对 误差 为 28.44% ) b) 对 所 有 延长 线段 ， 基 于 最 小 归 一 化 欧 几 
里 德 距 离 的 SVD 计算 得 到 的 相交 点 (在 方向 上 的 相对 误差 为 0.24%， 在 v 方 向 上 的 相对 
误差 为 8. 30% ) ， 以 及 最 后 用 Liebowitz 方法 得 出 的 优化 相交 点 (在 4 方向 上 的 相对 误差 为 
0.15% ， 在 "方向 上 的 相对 误差 为 2.47% ) 。 椭 圆 刻 画 了 99% 的 置信 区 间 。 平 均 数 的 方法 具 
有 很 大 的 不 确定 性 ， 也 是 迄今 为 止 最 精 糕 的 估计 方法 。 正 如 所 预期 的 ， 优 化 相交 点 的 方法 产 
生 最 好 的 结果 (好 于 前 者 3 倍 以 上 ) 





















































© 灭 点 的 检测 是 同时 聚 类 与 估计 问题 ， 而 有 前 景 的 方法 是 遵循 期 望 最 大 化 的 
信人.383319,3025424] 

D 灭 点 不 是 在 搜索 区 的 任意 位 置 ， 大 多 数 情 况 下 ， 关 于 场景 与 摄像 机 的 信息 
是 可 用 的 ， 这 些 信息 可 应 用 于 指导 搜索 。 

(5) 镜头 畸变 通常 是 不 可 忽略 的 。 径 向 畸变 是 可 以 满足 优质 镜头 的 ， 镜 头 失真 
的 估计 是 内 部 校准 的 一 部 分 ?5 .261 。 

© 在 检测 灭 点 后 ， 内 部 标定 的 计算 不 是 后 处 理 步 又。 摄像 机 的 未 知 内 部 参数 
是 最 优化 的 目标 ， 正 如 我 们 所 见 ， 灭 点 是 成 列 的 H,。= KR。 

采用 图 9.7 中 的 实际 场景 实验 表明 : 内 部 参数 与 理想 情况 之 间 的 平均 相对 误差 
在 5% VAP OY ， 在 这 个 误差 范围 内 是 允许 用 于 视频 监控 的 。 因 为 在 实际 中 产生 的 
误差 总 是 在 1 ~ 0. 5m， 这 一 距离 段 是 人 的 平均 宽度 ， 当 这 些 线段 均匀 分 布 在 图 像 中 
并 且 三 个 正 交 方向 也 被 很 好 地 表达 的 时 候 ， 相 对 误差 会 下 降 到 1% 以 下 ， 这 属于 在 
标准 范围 内 使 用 校准 模式 。 

灭 点 对 所 观察 场景 中 的 重要 信息 进行 编码 ， 也 可 以 为 另 一 高 层次 的 任务 提供 便 
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利 ， 例 如 ， 检 测 直 线 结 构 ， 在 人 造 的 户外 与 户 内 环境 中 ， 直 线 几何 结构 是 最 普通 常 
见 的 直线 结构 之 一 。 在 许多 实例 中 ， 人 们 总 能 将 语义 标签 与 检测 区 域 矩 形状 联系 起 
来 ， 如 门 、 窗 、 海 报 、 建 筑 门面 ， 平 面 结 构 也 被 认为 是 支持 共 面 点 的 大 区 域 ， 从 而 
为 地 面 检测 和 宽 基 线 匹配 任务 及 其 后 续 分 段 三 维 平面 重建 、 计 算 几 何 性 质 提 供 了 一 
种 替代 的 方法 。 在 监控 应 用 中 ， 简 略 的 场景 几何 有 助 于 限定 目标 检测 的 应 用 。 














图 9.7 实际 场景 : 图 片 给 出 了 室内 场景 下 Plufgfelder 内 标定 的 结果 。 线 段 分 
组 属于 至 少 两 个 正 交 灭 点 ， 然 后 计算 内 参数 和 方向 。 图 片 中 重新 投影 的 立方 体 被 
估计 方向 ， 灭 点 〈 立 方 体 边 缘 的 定点 ) 和 主 点 (立方 体 的 重心 ) 














这 些 似乎 说 明了 对 于 灭 点 进行 有 效 和 可 靠 的 检测 的 很 重要 的 原因 。 图 9. 8 给 出 
了 一 个 例子 。 当 然 ， 人 们 有 可 能 合并 一 些 灭 点 作为 附加 参数 ， 对 于 估计 摄像 机 内 部 
参数 具有 重要 作用 ， 同 时 也 可 采用 线性 结构 搜索 这 些 参数 。 




















图 9.8 线性 结构 的 检测 ， 从 左边 开始 : 中 输入 内 散 消 失 线 的 图 像 。@ 用 Micusik 
等 人 提出 的 方法 ”检测 四 边 形 。@ 基 于 Markov 随机 场 的 方法 ， 并 利用 已 经 提取 
的 四 边 形 将 图 像 部 分 分 割 成 三 个 正 交 面 。 每 个 平面 用 不 同 的 灰 度 级 描述 ， 最 亮 的 
表示 “未 定 ” 像 素 。 








9.5 讨论 


过 去 十 年 对 于 内 部 标定 的 几何 学 基础 已 经 进行 了 广泛 的 研究 ， 现 在 建立 了 比较 
完善 的 理论 。 我 们 已 经 提出 了 绝对 二 次 曲线 图 像 作 为 中 心 几 何 结构 ， 用 于 内 参数 计 
算 。 这 种 二 次 曲线 图 像 受 到 各 种 视图 、 场 景 、 以 及 摄像 机 信息 的 约束 ， 诸 如 灭 点 、 
线 、 圆 点 、 基 本 和 矩阵， 已 知 摄像 机 方向 比 ， 零 俩 差 和 已 知 主 点 等 。 

仍然 没有 令 人 满意 的 解决 方案 可 以 通过 精确 鲁 棒 地 识别 图 像 特 征 来 获得 视觉 信 
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息 , 需要 进一步 开展 研究 。 当 使 用 运动 目标 进行 标定 时 ， 可 选择 大 批量 行人 和 车辆 
的 数据 ， 依 据 统计 学 定律 来 持续 地 改善 标定 。 改 善 标定 的 另 一 思路 是 充分 利用 识 
别 、 追 踪 和 标定 之 间 的 各 种 交叉 关系 Po 。 

通过 云 台 调节 主动 型 摄像 机 来 实现 自 标定 也 是 一 个 版 有 前 途 的 方向 ， 这 是 因 
为 ， 一 方面 ， 诸 如 线性 、 正 交 性 、 平 行 结构 等 对 场景 假设 的 限制 不 再 必要 了 ， 另 一 


方面 ， 在 常规 情况 下 对 图 像 点 进行 匹配 的 策略 相当 成 功 。 











第 10 3€ 对象 分 割 的 变化 检测 


Andrea Cavallaro 








摘要 在 许多 智能 摄像 机 应 用 中 ， 基 于 运动 或 变化 检测 的 对 象 分 割 是 第 一 步 ， 
例如 视频 监视 顺 、 人 机 交互 和 令 人 沉迷 的 游戏 。 在 实测 现场 要 求 有 高 效 准 确 的 技术 
来 检测 和 标记 变化 。 不 同 的 变化 检测 技术 可 以 被 应 用 于 移动 摄像 机 和 静态 摄像 机 。 
如 果 摄 像 机 是 移动 的 ， 则 变化 检测 就 虽 在 检测 连贯 的 和 非 连贯 的 移动 领域 。 前 者 相 
当 于 背景 区 域 ， 后 者 相当 于 移动 物体 。 如 果 摄 像 机 是 静态 的 ， 变 化 检测 的 目标 则 是 
检测 移动 物体 (前 景 ) 和 静态 背景 。 在 这 一 章 中 我 们 着 重 探 讨 背 景 是 静态 情况 下 
的 变化 检测 应 用 。 这 里 讨论 的 方法 是 应 用 于 全 局 运动 补偿 之 后 的 移动 智能 摄像 机 中 
的 。 参 考 文献 中 提出 的 变化 检测 算法 是 在 已 经 提出 的 一 般 模 型 的 四 个 构架 模块 的 基 
础 上 讨论 的 。 









































10.1 简介 


变化 检测 是 诸如 视频 监视 器 ， 智 能 家 居 、 互 动 和 拟 真 游戏 等 视觉 基础 应 用 中 重 
要 的 一 步 。 特 别 地 ， 变 化 检测 是 智能 摄像 机 应 用 的 一 个 预 处 理 步 又 ， 它 减少 了 后 面 
模块 所 要 分 析 的 信息 数量 和 分 布 式 智能 摄像 机 设置 所 要 交换 的 信息 数量 。 决 定 于 应 
用 、 可 用 的 计算 能 力 和 需要 的 准确 性 ， 一 个 变化 检测 算法 的 复杂 性 将 会 多 种 多 样 。 

变化 检测 算法 的 基本 要 求 是 物体 轮廓 检测 的 准确 性 〈 空 间 准确 性 ) 和 时 间 稳 
定性 〈 时 间 一 致 性 ) 。 再 者 ， 在 变化 检测 算法 中 敏感 度 和 鲁 棒 性 也 是 期 望 考察 的 特 
性 。 敏 感度 是 检测 小 量 级 变化 的 能 力 。 鲁 棒 性 则 被 视 作 一 种 能 否 在 多 变 环境 下 提供 
好 的 准确 性 的 特性 ， 如 光度 变化 。 其 他 要 求 决定 于 应 用 情况 ， 会 在 应 用 中 介绍 。 举 
例 来 说 ， 如 果 这 种 性 能 以 检测 过 程 的 客观 性 为 特征 的 话 ， 空 间 连续 性 的 先 验 参数 就 
可 以 被 应 用 。 

MRN, RAS, y, n) 来 表示 帧 。 在 这 一 章 中 ， 对 于 一 个 基本 序列 ,我 
们 用 函数 /的 三 个 变量 来 表示 :两 个 空间 变量 * 和 y， 和 一 个 时 间 变量 n。 当 函数 
是 多 频带 的 或 是 一 个 随机 变量 ,我们 用 黑体 表示 为 六 变化 检测 的 问题 存在 于 结果 
中 ， 对 于 每 一 帧 图 像 4， 一 个 二 进 制 映射 c(x，y，n) EXT fa, y, n) 中 相对 
于 参考 图 像 发 生 了 变化 的 像素 。 二 进 制 掩 码 c(x，y，n) 是 变化 检测 分 析 的 结果 ， 
它 定义 为 
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1 ”如 果 在 时 刻 n E (x,y) 发 生变 化 
c(x,y,n) = 0 否则 
可 以 采用 不 同 的 策略 计算 c(x,y,n), Exe f(x y n) Rlf(x, yr) Meee: 
c(x,y,n) 2 M(f(x,y,n) , f(x,y,r)) (10.2) 
我 们 将 M OPP TS EE AER, OP a a ON IEE. REST. oP RA 
处 理 。 这 种 结构 允许 我 们 对 比 参 考 文 献 中 提出 的 不 同 技 术 。 前 面 提 到 的 方案 的 方 杠 
图 由 图 10. 1 表示 。 


(10.1) 

















| 。 特征 分 析 
E 特征 提取 | 距离 度量 E 指数 计算 t 分 类 H» 后 处 理 一 一 
4 E 3h NE 5 
-彩色 空间 转换 IR ” -微分 -绝对 什 - £e E - usen 
































iit 
-边缘 检测 器 ”正规 化 - 比 信 -平方 值 -awm -apem 
-水 平 线 提取 器 WE - 似 然 比 -边缘 
-PAIE id -高 阶 统计 
-二 阶 统计 























图 10.1 变化 检测 算法 的 主要 步 又 和 在 参考 文献 中 常 使 用 的 不 同 技术 








有 关 算 法 M 的 选择 包括 从 f(x, y, n) MA, y, r) 中 提取 的 特征 ， 量 化 的 
距离 测度 ， 和 变化 检测 的 分 类 策略 。 

变化 检测 的 第 一 步 通 过 转换 把 图 像 序列 f(x，y，n) 的 每 一 帧 转换 到 最 合适 
的 特征 空间 中 。 特 征 空间 的 选择 决定 于 算法 要 用 在 哪里 。 第 一 步 的 结果 定义 了 序列 
g(x, y, n): 














Se DA (10. 3) 
g(x, y, n) 代表 了 变化 检测 运算 将 要 执行 的 信和 号。 特征 提取 之 后 的 步骤 是 特征 分 
析 了 7， 它 是 为 了 得 到 一 个 指标 ， 能 Een Pup 活动 指数 是 
通过 对 比 g(a, y, n) 和 一 个 参考 图 像 g(x，y, r) 来 计算 的 ， 一 步 的 结果 得 到 
FRU t(x, y, n), ELA 
t(x,y,n) 2 T(g(x,y,n) ,g(x,y,r)) (10. 4) 
这 个 活动 指数 属于 下 面 两 类 中 的 一 种 : 变化 的 或 是 不 变 的 。 为 了 获得 分 类 结 
Ae, (x, y, n) 通过 阔 值 进行 二 值 化 。 最 后 结果 根据 如 下 测试 得 到 : 
1 WR t(x,y,n) >T 
0 否则 
BIE r 可 以 根据 经 验 设 定 ， 也 可 以 由 自 适 应 计算 得 到 。 分 类 步 又 的 结果 受到 不 
同 环境 下 噪声 的 影响 。 除 摄像 机 噪声 之 外 ， 变 化 检测 算法 中 模型 的 shaped 
声 。 为 了 减少 这 种 错误 警报 ， 通 常 还 需要 一 个 后 端 处 理 过 程 。 
在 后 面 的 部 分 中 我 们 将 对 参考 文献 中 提 到 的 解决 变化 检测 算法 问题 的 不 同 技术 
做 一 个 介绍 。 另 外 ， 我 们 要 讨论 与 上 面 提 到 的 模型 相关 的 选择 。 




















c(x,y,n) = (10.5) 
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10.2 特征 提取 





对 特定 的 应 用 ， 每 一 个 输入 帧 f(x，y,，n) 被 转换 到 最 合适 的 特征 空间 。 特 征 
提取 的 结果 是 得 到 一 个 序列 g(x，y，n) ， 变 化 检测 运算 就 是 在 这 个 序列 上 执行 的 。 
fas g(x, y, n) 仅仅 来 自 一 幅 图 像 〈 换 言 之 ， 它 不 包含 运动 信息 ) 。 在 这 部 分 ， 
为 了 简化 定义 ， 我 们 将 省 略 时 间 变 量 n。 信 号 gla, y) 可 以 代表 亮度 和 颜色 成 分 ， 
或 者 更 复杂 的 特征 。 在 场景 照明 情况 不 能 轻易 构建 出 模型 时 ， 我 们 才 会 使 用 更 多 复 
杂 的 特征 。 最 终 ， 我 们 可 以 使 用 输入 基于 图 像 区 域 模型 的 参数 。 接 下 来 我 们 重点 分 
析 以 上 提 到 的 特征 的 细节 。 


10.2.1 亮度 特征 


分 析 像 素 亮度 是 变化 检测 最 简单 直接 的 方法 。 这 种 分 析 能 够 通过 使 用 亮度 或 颜 
色 值 实现 。 亮 度 是 用 在 变化 检测 中 最 普通 的 特征 082522023030 1 。 对 于 单 色 摄像 
机 ， 则 不 需要 什么 运算 来 获得 g(*，y) 。 传 统 地 ， 彩 色 视 频 中 的 帧 包括 三 种 颜色 成 
分 , f(x, y) =(R(x, y), G(x, y), Bla, y)). FERAL, FERRER EAR 
颜色 成 分 的 加 权 组 合 来 计算 : 

g(x,y) 2o, R(x,y) to,G(x,y) +@,B(x,y) (10. 6) 

这 里 ，ow, 是 权 值 ， 说 明 不 同 颜色 成 分 对 于 人 有 眼 视觉 系统 不 同 的 敏感 度 。 

除了 代表 亮度 的 灰 度 图 像 ， 也 能 够 使 用 颜色 特征 '”!”]。 可 以 直接 使 用 来 自 摄 
像 机 传感器 (通常 是 RGB) 的 颜色 信息 ， 也 可 以 将 其 转换 到 其 他 颜色 空间 后 再 使 
用 。 颜 色 空 间 的 选择 决定 于 当下 的 应 用 。 


10.2.2 亮度 不 变 特征 


当 亮 度 变化 时 ， 传 统 基 于 图 像 灰 度 的 变化 检测 方法 就 失败 了 ， 因 为 灰 度 值 的 波 
动产 生 了 错误 的 判断 。 这 个 问题 能 够 通过 使 用 亮度 不 变 特 征 来 元 服 。 注 意 ， 要 获得 
一 个 对 亮度 变化 具有 重 棒 性 的 变化 检测 算法 ， 亮 度 不 变 转换 可 以 作为 亮度 不 变 特征 
的 一 种 蔡 代 。 亮 度 不 变 转 换 将 在 下 一 部 分 讨论 。 

水 平 线 '”， 边 缘 图 “1 ， 图 像 区 域 的 矢量 表示 "  ， 还 有 反照 率 图 像 “ 都 是 
在 亮度 变化 情况 下 比 灰 度 图 像 具 有 更 强 的 鲁 棒 性 的 例子 。 

让 我 们 仔细 考察 不 同 的 特征 。 参 考 文献 [28] 中 展示 了 一 种 基于 水 平 线 图 像 
表示 的 方法 。 这 种 方法 运用 了 这 样 一 个 事实 : 一 个 整体 的 亮度 变化 改变 的 是 数值 ， 
而 不 是 水 平 线 的 几何 形状 。 水 平 线 A 是 一 个 截 集 的 边界 。 一 个 截 集 S, 包括 了 所 有 
的 像素 值 大 于 入 的 像素 的 位 置 : 

S, = |{ (x,y) f(x,y) 2A} (10.7) 

输入 一 个 Kx，y) , 一 幅 包 含水 平 线 的 图 像 能 够 用 一 个 水 平 线 映射 g(x, y) 来 









































146 智能 摄像 机 





表示 ， 水 平 线 映射 定义 如 下 : 
g(x,y) = x m "gcn (10. 8) 

N 是 建立 该 映射 的 水 平 线 数目 。 

与 水 平 线 原理 相同 ， 基 于 边缘 避免 亮度 变化 的 算法 被 解释 为 结构 的 变化 。 
使 用 边缘 提高 了 空间 的 精度 。 另 外 ， 由 于 边缘 图 是 二 值 图 像 ， 所 以 很 方便 计算 和 
存储 。 

用 于 变化 检测 的 另 一 种 亮度 不 变 特 征 是 反照 率 图 像 。 反 照 率 图 像 代 表 一 幅 图 像 
的 反照 率 成 分 ， 它 独立 于 亮度 并 且 包 含 主要 的 物理 对 象 信 息 。 我 们 可 以 把 反射 成 分 
r(x, y) 和 亮度 ix，y) 的 乘积 作为 灰 度 f(x，y) RUBUS TS. 

f(x,y) =r(x,y)i(x,y) (10.9) 

在 应 用 同 态 滤波 器 上 输入 亮度 '”| 就 有 可 能 提取 出 反射 成 分 (反照 率 )。 首 先 ， 
通过 一 个 对 数 滤 波 圳 区 分 亮度 和 反射 成 分 : 

log f(x,y) 2logr(x,y) *logi(x,y) (10. 10) 

它 使 得 r(x, y) Mil, y) 的 乘法 关系 转化 为 加 法 。 对 数 性 质 的 转化 图 像 基 
本 上 有 两 种 频率 成 分 : 低频 成 分 主要 和 亮度 有 关 ， 中 频 和 高 频 部 分 主要 和 反射 系数 
有 关 。 为 了 提取 出 反射 成 分 ， 需 要 通过 一 个 低 通 滤波 器 LP 来 消除 高 频 成 分 。 

g(x,y) =exp[log f(x, y) - LP[log f(x,y) ] (10. 11) 
因此 可 以 在 变化 检测 分 析 中 使 用 亮度 不 变 特 征 。 


10.2.3 二 阶 统计 


变化 检测 中 一 个 不 同 的 提取 特征 g(x, y) 的 方法 ， 该 方法 涉及 信号 六 (x. y) 
的 亮度 分 布 建 模 。 该 模型 一 般 以 基于 区 域 的 统计 为 特点 。 二 阶 模型 经 常用 来 描述 一 
幅 图 像 在 一 个 区 域 中 的 局 部 亮度 分 布 ， 比 如 区 域 的 方差 和 均值 的 ; ， 二 次 函数 区 域 
建 模 UU. ORE UU, ETE (x, y) 的 区 域 W, ,通常 是 一 个 
N x N 的 窗口 ， 因 此 可 以 用 下 式 计算 平均 值 . 





























By) = Mud fO) (10. 12) 
方差 为 
Play) = 3G cuu» (10. 13) 


HE (o^ (x, y), w(x, y) ) 被 用 来 描绘 We 01, 

另外 ， 亮 度 分 布 可 以 用 一 个 二 次 图 片 函数 来 构建 (QPF)P2l。 二 次 图 片 函 数 
RER W, 上 的 表面 模型 。 区 域 只 ，, 上 的 亮度 分 布 用 二 阶 二 元 多 项 式 Cx, 
y) 来 描述 。 为 了 使 其 鲁 棒 性 更 强 ， 可 以 使 用 gC, y) 的 偏 导数 (1 (导数 
QPF) : 
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Qe (y) | By Gray) 

Ox oy 

这 些 基于 二 阶 统计 的 方法 应 用 于 早期 的 变化 检测 技术 中 。 它 们 基于 构建 未 知 信 
号 。 由 于 它们 的 性 能 ， 现 代 变 化 检测 中 不 使 用 这 些 方法 ,在 这 里 只 是 为 了 完整 才 对 
它 做 了 说 明 。 

变化 检测 中 使 用 的 不 同 特征 在 表 10. 1 中 做 了 总 结 概括 。 


表 10.1 变化 检测 中 使 用 的 传统 特征 





g(x,y) =g (x,y) = (10. 14) 









































特征 计算 方法 算 法 

亮度 公式 (10.6) 或 恒等式 参考 文献 [398，502，240，2，330，370] 
颜色 颜色 空间 转换 或 恒等式 参考 文献 [98, 125] 

边缘 图 边缘 检测 器 参考 文献 【351 ] 

水 平 线 图 公式 (10.8) 参考 文献 [28] 

反照 率 图 像 Z (10.11) 参考 文献 [535] 

二 阶 统计 公式 (10.12) 和 公式 (10. 13) 参考 文献 [257] 

表面 模型 公式 (10. 14) 参考 文献 [502, 242] 























10.3 ”特征 分 析 








当 图 像 变 换 到 一 个 合适 的 特征 空间 ， 就 会 按照 如 下 所 述 的 部 分 加 以 分 析 以 检测 
变化 的 区 域 。 特 征 分 析 状 态 过 程 ex, y, n) 计算 当前 帧 的 活动 指数 。 通 过 比较 g 
(x, y, n) 和 经 过 了 变换 的 g(*，y，r) 参考 图 像 来 计算 活动 指数 。g (x，y,， n) 
和 g(x，y，r) 都 是 从 前 面 章 节 中 的 技术 得 到 的 。 第 二 步 得 到 一 个 序列 1 (x，y， 
n)。 下 面 我 们 讨论 特征 分 析 执 行 的 空间 支持 ， 参 考 帧 g(x，y, r) 用 于 对 比 ， 不 同 
的 变换 7， 已 经 在 文献 中 提 到 用 来 提取 活动 指数 i(x，y, n). 


10. 3.1 空间 支持 


在 理想 的 情况 下 ,7 变换 将 分 别 应 用 于 每 一 个 像素 。 在 真实 图 像 中 ,为 了 处 理 
不 同 来 源 的 噪声 ， 必 须 进行 鲁 棒 性 分 析 。 为 此 ， 一 个 较 大 的 空间 支持 ， 即 用 每 一 个 
像素 的 邻 域 来 比较 当前 图 像 和 参考 图 像 的 特征 。 这 种 方法 帮助 减 小 在 变化 检测 过 程 
中 的 噪声 影响 。 像 素 的 邻 域 可 以 是 一 个 具有 通用 形状 的 单一 区 域 ， 一 个 非 连通 集 像 
素 集 或 一 个 矩形 窗口 〈( 见 图 10.2) 。 可 以 在 信号 或 过 去 帧 的 投影 中 采用 一 个 具有 通 
用 形状 的 区 域 。 不 连通 的 像素 集 “” 可 用 于 加 速 检测 过 程 。 这 种 方法 便于 快速 检测 
变化 ， 但 是 限制 了 变化 检测 方法 的 空间 准确 性 。 和 矩形 窗 是 最 普遍 的 像素 邻 域 !”” 。 
尤其 在 没有 先 验 知识 的 场景 中 ， 可 以 考虑 正方 形 窗口 。 随 着 窗口 尺寸 的 增加 ， 品 声 
的 鲁 棒 性 也 增 大 。 然 而 ， 检 测 的 准确 性 减弱 。 权 衡 噪声 的 鲁 棒 性 和 检测 的 准确 性 来 
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选择 窗口 的 尺寸 。 

个 相关 的 问题 是 检测 过 程 执 — [717] E 
行 的 尺度 。 这 个 尺度 取决 于 应 用 的 | -和 EE 
需求 ， 它 既 可 以 通过 不 重 释 的 窗口 
也 可 以 通过 重叠 的 窗口 (图 10.3) 
来 实现 。 在 前 一 种 情况 下 ， 不 重 又 
的 空间 窗口 为 检测 过 程 形成 支撑 。 as M zh 
在 后 一 种 情况 下 ， 从 像素 邻 域 得 到 
的 信息 来 源 于 像素 本 身 。 选 择 采 用 
哪 种 方法 是 对 准确 性 和 计算 复杂 性 的 权衡 。 重 生 窗 口 提 供 了 较 好 的 准确 性 ， 但 在 某 
些 情况 下 ， 实 时 限制 要 求 变换 检测 过 程 应 用 于 较 小 的 图 像 (CUERO T Oy 
当 输 入 采用 不 重 莅 的 窗口 ， 可 能 会 带 来 区 块 效应 (blocking artifacts) 。 


10.3.2 参考 帧 


为 了 检测 重大 变化 ， 当 前 帧 g (x, y, n) 的 特征 相当 于 是 参考 帧 g (x, y, 
r) 的 特征 。 在 变化 检测 中 ,参考 图 像 的 选择 是 非常 重要 的 。 参 考 帧 可 能 是 序列 中 
的 先前 帧 或 一 幅 代 表 场 景 背景 的 图 像 。 背 景 帧 可 以 是 固定 的 或 是 定期 更 新 的 。 在 前 
一 种 情况 下 ， 通 常 一 个 帧 取 自 序列 (例如 ， 第 一 帧 %*.”)。 在 后 一 种 情况 下 ， 使 
用 了 先前 帧 ”的 时 空 信息 。 表 10. 2 总结 了 选择 参考 帧 的 不 同方 法 。 
许多 变化 检测 技术 使 用 先前 帧 作为 参考 帧 ”3 . 
t(x,y,n) 2 T(g(x,y,n) ,g(x,y,n -1)) (10. 15) 
































图 10.2 相 邻 像素 类 型 用 于 得 到 噪声 鲁 棒 性 








































































































图 10.3 使 用 滑动 窗 实现 不 同 尺 度 的 变换 检测 。 左 ; 不 重生 窗口 。 右 : EAA 
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表 10.2 变化 检测 中 选择 一 个 参考 帧 的 不 同方 法 























d W 符 号 A 法 
参考 文献 [398, 2] 
固定 先前 由 iud 
prodr 参考 文献 [370, 535] 
归 一 化 先前 由 g (x, y, n-1) 参考 文献 (321, 540] 
固定 背景 帧 g (x, y, 0) 参考 文献 [330, 98] 
= 参考 文献 [99, 125, 28] 
更 新 背景 由 
ad Pom 参考 文献 [351, 356, 238] 








这 些 方法 具有 减少 阴影 检测 的 优点 。 另 外 ， 这 种 方法 也 检测 了 实际 中 并 不 需要 
的 移动 物体 露出 的 背景 。 此 外 ， 这 种 方法 无 法 检测 到 物体 的 低 纹理 移动 区 域 。 在 某 
些 情况 下 ， 先 前 帧 g (x, y, n-1) 在 对 比 之 前 已 经 归 一 化 了 。 数 据 归 一 化 用 来 减 
少 或 归 一 化 由 于 不 同 灯光 或 气候 状况 而 造成 的 场景 变化 。 在 比较 前 ， 归 一 化 的 先前 
Wig(x, y, r) 2g (x, y, n-1) 被 创建 在 区 域 层次 。 归 一 化 是 通过 二 阶 统计 cs 
来 实现 的 。 当 前 图 像 与 参考 图 像 的 各 区 域 的 方差 和 平均 值 ，(o, 内) 和 (o, 
p.) 分 别 用 来 补偿 不 同 的 光照 。 下 面 的 变换 应 用 于 图 像 的 各 区 域 W: 


2 


= Oo 
be + 人 (10. 16) 








如 果 公 式 (10.16) 解释 为 一 个 滤波 器 ，o”/o? 入 ,分 别 是 滤波 器 正规 化 先前 
由 g(x,y,r) =g(x,y,n 一 1) 的 增益 和 偏 移 量 。 正 规 化 后 ， 灰 度 级 分 布 在 具有 相同 均 
值 和 方差 的 两 幅 图 像 的 相应 区 域 。 

另 一 种 可 选择 的 方法 是 在 变化 检测 中 使 用 背景 帧 作为 参考 帧 。 这 种 方法 假设 在 
开始 捕获 序列 时 ， 没 有 出 现 前 景 目 标 。 通 常 选 序列 的 第 一 帧 作为 参考 帧 

t(x,y,n) 2 T(g(x,y,n) ,g(x,y,0)) (10. 17) 

这 种 方法 可 以 检测 场景 中 的 目标 ， 即 使 目标 变 得 静止 也 可 以 简单 地 检测 出 来 。 
另外 ， 这 种 方法 减少 了 背景 显露 区 的 影响 并 且 提高 了 低 纹 理 移动 物体 的 检测 。 

然而 ， 这 种 解决 方法 并 不 总 能 符合 实际 情况 。 在 实际 中 很 难得 到 没有 前 景 目标 
的 初始 帧 。 而 且 ， 对 长 户外 序列 ， 规 定 这 样 一 个 参考 帧 是 不 合适 的 ， 因 为 在 这 种 情 
况 下 ， 照 明 条 件 逐 渐 改 变 ， 而 这 种 方法 并 不 能 适应 这 些 变化 。 

针对 以 上 分 析 ， 参 考 文献 [99, 125, 28, 351, 356, 238] 提出 了 把 序列 中 
后 续 图 像 的 背景 信息 综合 起 来 重建 参考 帧 的 技术 ， 这 种 解决 方法 可 以 记忆 变化 检测 
过 程 以 便 产生 一 个 更 新 后 的 背景 。 通 过 时 间 滤 波 器 整合 序列 中 过 去 帧 的 信息 来 实现 
这 种 方法 。 这 个 过 程 允许 我 们 计算 没有 运动 物体 的 当前 帧 的 预测 值 。 用 更 新 后 的 背 


景 和 当前 帧 做 对 比 来 检测 变化 。 背 景 图 像 g(x*，y，r) =g(x, y, n) 由 过 去 帧 的 
加 权 平均 生成 ; 
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g(x,y,n) =(1-a)g(x,y,n) ta g(x,y,n-1) (10. 18) 
XE, g(x, y, n) =e(x, y, 0) 上 且 0<a<1。 根 据 图 像 序列 中 像素 在 时 间 窗 
口中 的 统计 值 来 更 新 参考 帧 是 一 种 有 效 的 方法 Cl 。 在 这 种 情况 下 a 的 值 是 自 适应 
的 。 在 简单 的 方法 中 ，a 是 常数 。 即 使 是 不 变 的 像素 最 终 也 会 更 新 ”1 。 虽 然 无 法 
得 到 没有 前 景 目标 的 帧 ， 但 是 更 新 的 过 程 会 产生 一 个 背景 帧 。 此 外 ， 这 样 一 个 更 新 
的 参考 帧 可 以 用 来 补偿 室外 场景 在 照明 和 天 气 条 件 下 的 缓慢 变化 。 另 外 ， 这 种 方法 
克服 了 背景 覆 头 和 背景 显露 的 问题 。 然 而 ， 这 种 方法 受到 移动 物体 投影 的 影响 。 这 
个 缺点 的 解决 将 在 第 10. 5 节 中 讨论 。 


10.3.3 活动 指数 的 提取 


一 旦 输入 图 像 转换 为 合适 的 特征 并 且 产生 了 参考 帧 ， 下 一 步 是 让 对 应 的 特征 与 
g(x, y, n) 和 g(x, y, r) 相 匹配 ， 来 估计 运动 等 级 。 我 们 提出 了 一 个 比较 特征 
的 一 般 变 换 函 数 了 7，7 是 距离 算 子 7 和 函数 7 的 合成 : 

T - T,oT, (10. 19) 

所 以 ,公式 (10.4). 可 以 表示 为 

t(x,y,n) =t, (t (g(n,y,n) gn, yr) )) (10. 20) 

距离 算 子 提供 了 一 个 像素 级 特征 距离 ， 这 个 距离 可 以 是 像素 之 间 的 差分 、 图 像 
比 、 向 量 差 分 或 一 个 基于 二 阶 统计 的 差 值 度量 。 像 素 差分 (图像 微分 ) 可 以 表 
示 为 




















ta (x,y,n) 2g(x,y,n) -g(x,y,r) (10. 21) 
这 个 算 子 应 用 于 代表 亮度 ”或 颜色 ”的 灰 度 图 像 以 及 表示 边缘 | 和 水 平 
线 '” 的 二 进 制图 像 。 向 量 差分 是 一 个 距离 度量 ， 可 以 用 等 式 (10.21) 表示 ,但 向 
量 差 是 对 向 量 进行 操作 : 
(x, y,n) 2 g(x,y,n) -gix,y,r) (10. 22) 
xx rs] f RT GE C] HC CURES SRE), BNR EC ERE RR TEASER 
刻 的 灰 度 值 之 比 : 











X _g(x,y,n) 
ta(x,y) p (10. 23) 


这 种 计算 可 以 在 像素 或 区 域 级 上 实现 且 对 光照 变化 具有 和 鲁 棒 性 。 也 可 以 使 用 基 
于 二 阶 统 计 的 差 值 度量 。 这 些 技术 通过 一 些 特征 函数 比较 各 像素 在 g(x,y, n) 和 
g(x, y, r) 周围 区 域 的 强度 。 在 区 域 灰 中， 基于 二 阶 统计 的 一 种 差 值 度量 是 似 
PRE 














2 2 
tu (y, n) bei V -u YT 
S gol 2 (2 JJ 


(0^, u,) 和 (o^, u) 分 别 是 当前 图 像 和 参考 图 像 在 WW 中 的 方差 和 均值 。 








(10. 24) 
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经 过 距离 算 子 Ta, BUR talx, y, n) 可 以 进一步 转换 得 到 用 于 变化 检测 的 
运动 指数 。 在 某 些 情况 下 ， 距 离 算 子 的 结果 ti,(x,，y, n) 直接 作为 运动 指数 ， 并 
ELEC ER 7 作为 恒 等 函 数 。 这 个 变换 7 可 以 是 绝对 值 、 均 方 值 、 二 阶 或 四 阶 矩 
以 及 边缘 ， 它 能 应 用 于 不 同 的 空间 支持 。 如 果 特 征 是 图 像 强度 或 二 进 制 掩 码 ， 比 如 
边缘 或 水 平 线 ， 那 么 在 计算 了 距离 算 子 后 ， 再 使 用 绝对 值 或 均 方 值 。 

t(x,y,n) = | ty, n) Hl, (10. 25) 

其 中 p = 11，2} ， 分 别 代表 绝对 值 和 均 方 值 。 当 特征 是 灰 度 图 像 〈 亮 度 或 颜 

色 组 成 ) 时 在 矩形 窗口 下 计算 和 矩 。 在 这 种 情况 下 ， 假 设 指数 为 如 下 形式 : 


1 . B $ 
(x,y,n) ==> M, (ujn)-u) (10. 26) 
N (i) € Wis yy 


HE, (x, y, n) 是 图 像 差分 或 者 是 图 像 比例 ; s 是 矩 的 阶 次 ; u 表示 均值 ， 
如 下 : 








ps Mag 0m (10.27) 

tux, y, n) Ms 的 不 同 组 合 已 经 应 用 于 计算 活动 指数 。 在 参考 文献 [398] 
A, lx, y, n) 是 光照 强度 的 差 和 ss =4 WRR, t(x, y, n) 是 一 个 四 阶 和 矩 。 
在 参考 文献 [502, 153] F, tlx, y, n) 是 亮度 值 和 s =2 的 图 像 比 。 因 此 ， 
t(x, y, n) ÆDE 〈 明 暗 模型 ) 。 这 个 活动 指数 可 以 由 整个 区 域 '; (OB 
O) 或 中 心 像素 ' (不 重叠 窗口 ) 得 到 。 第 二 种 解决 方法 提供 了 一 种 更 好 的 空间 
A PUE 

计算 距离 度量 ， 刀 是 一 个 边缘 检测 器 ， 它 提供 光照 变化 的 鲁 棒 性 。 在 参考 文献 
[98] 中 边缘 检测 采用 索 贝 尔 算 子 ， 并 且 图 像 微分 适用 于 三 种 颜色 分 量 。 


表 10.3 特征 分 析 技 术 用 于 计算 活动 指数 
































«T, [| n—lMh | Wb [onma Lc ”| 边缘 检测 。 | 恒等式 
— 参考 文献 参考 文献 参考 文献 参考 文献 
[28, 351] [2] [398] [98] 
Z ra. a 
图 像 比 例 参考 文献 
[502] 
Z uc " 
向 量 差 参考 文献 
[153] 
2 vik 
似 然 比 参考 文献 
[257] 




















表 10.3 总 结 了 本 节 中 所 分 析 的 不 同 变换 。 
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10.4 分 类 


在 前 一 部 分 我 们 计算 活动 水 平 的 指标 t(x, y, n) 时 将 其 分 为 两 类 : 可 变 的 和 
不 可 变 。 为 了 获得 这 种 分 类 ，tx，y, n) WUT. RPA 
公式 (10.5) MER, t(x, y, n) 的 定义 域 和 值 域 随 着 用 于 比较 当前 帧 和 参考 帧 
的 特征 空间 和 特征 分 析 步 又 的 变化 而 变化 。 例 如 ， 像 边缘 这 种 情况 ，:(*，y，7) 
<s(-1,，0，1) ， 在 绝对 差分 的 情况 下 ，ix，y，m) eZ", 

公式 (10.5) 中 的 姜 值 可 以 设置 为 经 验 值 5 或 者 自 适 应 的 计 
gpwomomasmamem 。 在 前 一 种 情况 下 ， 闹 值 对 于 序列 中 的 所 有 帧 和 帧 中 所 有 的 
像素 都 是 固定 的 。 数 值 通常 是 根据 大 型 数据 库 的 实验 确定 的 。 在 后 一 种 情况 下 ， 效 
值 是 根据 一 些 规 则 而 改变 的 。 另 外 ， 效 值 可 能 是 全 局 或 局 部 的 。 以 下 介绍 了 选取 阔 
值 的 不 同方 法 。 


10.4.1 经 验 阅 值 的 确定 


在 变化 检测 中 ， 根 据 经 验 设 定 国 值 是 最 常见 的 方法 ， 在 测试 中 
t(x, y, n) >T (10. 28) 

7 的 值 是 恒定 的 ， 让 我 们 回顾 一 下 在 前 面 的 工作 中 〈 基 于 图 像 差 分 ， 图 像 比 和 
二 阶 统计 ) ， 这 个 值 是 如 何 确定 的 。 

考虑 到 亮度 的 差分 图 ， 我 们 能 够 做 的 关于 结构 幅 值 变 化 的 唯一 假设 是 它们 应 该 
特别 大 。 浆 值 是 非常 关键 的 : 如 果 效 值 太 低 ， 就 会 检测 出 一 些 伪 造 的 变化 ; 如 果 国 
值 太 高 ， 将 会 忽略 结构 的 变化 。 准 确 的 装 值 取决 于 图 像 、 摄 像 机 噪声 、 时 间 和 空间 
上 的 亮度 条 件 。 

当 用 于 变化 检测 过 程 的 特征 是 边缘 或 水 平 线 时 ，!x*，7y， n) 指数 是 通过 边缘 
图 像 微分 ， 然 后 取 绝 对 值 来 计算 的 。 指 数 因此 表示 了 一 幅 二 进 制 图 像 (用 0、1 表 
示 ) 1 表示 当前 帧 和 参考 帧 不 同 : 他 们 的 位 置 标识 了 变化 涯 3 汪 ] 。 因 此 全 局 靖 值 为 
0。 在 更 加 紧凑 的 格式 中 ， 它 相当 于 it(x, y, n) 2g(x, y, n) Og (x, y, r), 其 
中 表示 异 或 运算 符 ; g 是 边缘 图 像 。 

在 参考 文献 [502, 153] 中 ,通过 两 幅 图 像 中 对 应 区 域 每 个 像素 的 强度 比 来 
进行 变化 检测 。 当 强度 比 变 化 不 一 致 时 ， 能 够 检测 到 区 域 的 变化 。 指 数 1(x，y， 
n) 是 根据 公式 (10.26) 来 计算 方差 o 的 。 如 果 值 比 预先 设 定 的 阔 值 大 ， 就 假定 
在 相应 的 区 域 发 生 了 变化 。 在 参考 文献 [257] 中 指数 是 似 然 比 。 国 值 是 根据 经 验 
选择 的 ， 它 的 值 是 根据 测试 序列 手动 改变 的 。 这 是 经 验 法 的 典型 限制 ， 经 验 法 要 求 
根据 图 像 特征 交互 式 调 节 阔 值 。 因 此 这 种 方法 不 适合 自动 化 应 用 ， 也 不 适合 长 序 
列 。 最 佳 的 检测 阔 值 应 该 自动 调整 使 之 与 图 像 内 容 和 不 同 的 噪声 相 适应 。 
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10.4.2 动态 阅 值 的 确定 


动态 靖 值 试图 与 输入 数据 相 适 应 。 自 适应 和 全 局 阀 值 的 一 个 解决 方案 就 是 将 经 
WEE + 和 描述 时 变现 象 ( 它 影响 了 变化 的 监测 ) 的 参数 连接 起 来 。 这 种 现象 的 
例子 有 : 亮度 条 件 的 变化 或 者 采集 过 程 中 引入 的 噪声 。 因 此 ， 测 试 变 为 

t(x,y,n) >T(n) (10. 29) 

如 果 阔 值 和 全 局 亮度 变化 相 适 应 ，r(z) 是 一 个 与 观察 条 件 有 关 的 函数 。 例 
A, r(n) 可 以 是 基于 颜色 成 分 的 比率 "“ 。 如 果 阔 值 希望 与 采集 过 程 中 引入 的 品 
声 相 适应 ，r(z) 可 能 取决 于 摄像 机 噪声 的 方差 o,。 

为 了 计算 一 个 自 适应 的 局 部 阔 值 ， 如 果 已 知 摄像 机 噪声 的 概率 密度 分 布 郴 数 ， 
可 以 用 基于 区 域 的 统计 分 析 。 统 计 分 析 是 以 对 噪声 的 强度 分 布 进行 建 模 为 基础 
的 :32930。 与 差分 图 像 的 冰 值 不 同 的 是 ， 这 种 方法 将 差分 图 像 中 每 个 像素 位 
置 上 小 邻 域 的 统计 性 能 和 能 够 影响 差分 图 像 的 噪声 模型 进行 比较 。 这 个 比较 基于 显 
著 性 检测 。 噪 声 模型 的 定义 基于 以 下 假设 : 邻 域内 所 有 像素 的 改变 仅 是 因为 噪声 
(假设 为 玉 ) ， 序 列 中 的 每 一 帧 都 受到 确定 均值 和 方差 的 加 性 高 斯 噪声 的 影响 。 在 
这 些 假 设 下 ， 噪 声 模型 为 刀 分 布 ， 它 的 性 能 取决 于 邻 域内 的 像素 数目 和 影响 序列 
每 一 帧 的 高 斯 噪声 的 方差 。 给 定 太 分 布 和 显著 性 水 平 w， 靖 值 r. 的 自 适 应 值 可 以 通 
iL (10.30) 来 计算 : 
























































a=P{8>7,|H,} (10. 30) 

A, 假设 在 测试 中 像素 位 置 没有 发 生变 化 ， 显 著 性 水 平 a 是 一 个 固定 参数 ， 不 
需要 手动 调节 。 

在 参考 文献 [1] 中 描述 了 计算 自 适 应 和 局 部 阔 值 的 另 一 种 不 同 的 方法 ， 每 一 
个 像素 的 空间 背景 信息 都 考虑 到 了 。 用 于 测试 的 阔 值 与 3 x3 窗口 W ERER cx, 
y, n) 相 适 应 。 当 扫描 图 像 时 ， 只 有 邻 域 下 的 关联 部 分 中 的 4 个 邻近 标注 是 可 用 
的 。 因 此 ， 其 余 4 个 值 约 等 于 之 前 分 类 c(x,y, n-1) 的 标注 。 如 果 K(x, y, n) 
表示 在 时 间 n, SRR 到 内 检测 到 的 变化 的 像素 数目 ， 那 么 新 的 测试 就 变 为 

t(x,y,n) »T 4 0,[4 - K(x,y,n)] (10. 31) 

其 中 , OK(x, y, n) <8; OER, ÉME tlx, y, n) 的 范围 。 这 种 空 
间 自 适应 闪 值 允许 产生 一 个 紧凑 的 光滑 形状 的 变化 区 域 ， 降 低 由 噪声 引起 的 分 散 
误差 。 

在 参考 文献 [535] 中 呈现 了 这 种 方法 的 延伸 。 除 了 背景 的 空间 信息 ， 时 间 信 
息 也 被 整合 到 自 适 应 装 值 的 估计 中 。 在 这 种 情况 下 ， 也 同样 考虑 前 一 帧 中 像素 
(x, y) 的 标注 c(x，y, -1) 。 时 空 自 适应 闭 值 由 公式 (10.32) 给 定 

t(x,y,n) >7+0,[4-K(x,y,n) ] +0,[0.5 -c(x,y,n-1)] (10. 32) 

其 中 , c(x, y, n-1) €10,11, 0,81 0, IE EIC, 

用 于 确定 变化 检测 中 国 值 的 各 种 方法 都 归 类 在 表 10. 4 中 
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表 10.4 用 于 选择 分 类 阅 值 的 不 同方 法 
全 局 局 部 


参考 文献 [502, 28] T 























经 验 值 
参考 文献 [351, 153, 257] = 
参考 文献 [99, 398, 240] 
动态 值 参考 文献 [125] 


参考 文献 [2, 370, 535, 1] 








10.5 后 处 理 

















分 类 步骤 的 结果 c(x，y，n) ， 受 不 同 种 类 噪声 的 影响 。 范 例 的 结果 是 检测 算 
法 、 阴 影 、 背 景 显露 、 摄 像 机 噪声 所 固有 的 效果 。 所 有 的 噪声 源 都 应 为 变化 检测 模 
We(x, y, n-1) 中 的 错误 报警 负责 。 为 了 减少 错误 报警 的 概率 ， 参 考 文献 中 已 
经 提出 了 各 种 各 样 的 后 处 理 策略 。 这 些 策略 或 者 应 用 于 仅 是 二 值 图 像 的 分 类 结果 , 
或 者 既 应 用 于 二 值 图 像 又 应 用 于 原始 帧 。 在 这 节 中 回顾 了 不 同 的 后 处 理 方法 ， 总 结 
于 表 10.5 中 。 














表 10.5 用 于 后 处 理 变化 监测 结果 的 不 同 技术 





























w 输 入 dk 算 法 
连通 支 分 析 eG y, n) | 
形态 学 滤波 FPES 参考 文献 [398 125] 
色彩 分 析 ela, y, n) 和 f(x, y, n) 参考 文献 [100] 
Markov BLA eG y, n) 和 f(x, y, n) AR TUS. 30 
色彩 分 析 c(x, y, n), f(x, y, n) 和 f(x, y, r) 参考 文献 [382] 
边缘 分 析 eG, y, n), fen, y, n) MAs, y, r) 参考 文献 [506] 











10.5.1 用 二 进 制 掩 码 进 行 后 处 理 


最 简单 的 细 化 分 类 结果 的 方法 是 用 二 进 制 掩 码 来 进行 后 处 理 。 目 的 是 为 了 在 保 

留 轮廓 的 前 提 下 去 除 不 规则 的 形状 ， 并且 减少 原始 图 像 纹 理 上 没有 任何 信息 的 假 暂 

时 变化 。 利 用 二 进 制 掩 码 进 行 后 处 理 取决 于 当前 分 类 结果 或 者 结果 集 。 在 前 一 种 情 
况 中 ， 后 处 理 阶段 能 够 表示 为 

p(x,y,n) 2 p(c(x,y,n)) (10. 33) 

方法 是 基于 一 些 先 验 的 拓扑 假设 ， 这 些 假设 可 以 用 来 调节 c(x, y, n). W 

型 的 假设 是 物体 紧凑 性 ， 也 就 是 说 ， 被 检测 为 变化 的 区 域 必须 是 连通 的 并 有 一 定 的 

几何 规律 。 在 这 种 情况 下 , 后 处 理 是 基于 4 或 8 连通 支 分 析 或 者 是 形态 滤 

PP) 。 形 态 后 处 理 可 能 是 一 个 简单 的 开 "…” 或 更 复杂 的 成 分 的 形态 滤波 器 。 
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在 中 使 用 了 四 个 开 和 关 形 态 学 算 子 。 循 环 结构 元 素 的 直径 设置 为 经 验 值 ， 这 个 
经 验 值 是 基于 多 个 序列 实验 的 。 

当 图 像 边缘 或 水 平 线 图 像 在 变化 检测 中 用 作 特 征 时 出 现 了 不 同 的 情况 。 这 种 情 
况 下 ， 当 检测 移动 边缘 时 ， 技 术 本 身 引 入 了 偏差 .因为 轮廓 在 图 像 差 分 后 往往 不 连 
BeOS) 。 因 此 需要 进行 轮廓 闭合 的 操作 。 例 如 在 参考 文献 [351] 的 步骤 中 不 允 
许 在 场景 中 出 现 多 个 对 象 。 

在 参考 文献 [257] 中 介绍 ， 变 化 检测 中 的 时 序 分 析 是 为 了 减少 噪声 的 影响 。 
这 个 后 处 理 可 以 表示 为 

p(x,y,n) 2p(c(x,y,n-1) ,c(x,y,n) ,c(x,y,n *1)) (10. 34) 

我 们 可 以 接收 cCx，y，z) 中 一 个 像素 的 分 类 改变 ， 当 且 仅 当 这 个 像素 满足 两 
个 条 件 时 : 在 当前 帧 n 中 拥有 8 连通 邻 域 ; 变化 的 像素 出 现在 一 个 3 x3 窗口 W 
中 ， 集 中 前 一 帧 和 下 一 帧 变化 的 区 域内 。 最 后 ， 采 用 连通 部 分 分 析 : 只 有 当 像 素 属 
于 一 组 已 经 被 分 类 为 变化 的 4 连通 像素 中 时 ， 它 才 被 确认 为 是 变化 的 ， 组 的 大 小 相 
当 于 0. 196 的 帧 大 小 。 

在 后 处 理 阶 段 使 用 二 进 制 掩 码 的 好 处 是 在 低 计算 成 本 下 减 小 错误 报警 的 概率 。 
然而 ， 前 一 个 拓扑 假设 (在 紧凑 和 普通 轮廓 ) ， 它 们 并 不 总 是 有 效 的 。 因 为 这 一 原 
因 ， 这 些 技术 常常 导致 不 均 的 轮廓 。 

基于 二 进 制 的 图 像 且 不 受 上 述 问题 影响 的 后 处 理 策略 结合 了 不 同 的 变化 检测 结 
果 。 利 用 不 同 的 参考 帧 同样 的 变化 检测 算法 得 到 的 结果 。 在 参考 文献 [551] 中 提 
出 了 这 种 方法 的 一 个 例子 ， 它 通过 逻辑 算 子 ， 用 两 种 方法 把 基于 当前 帧 和 参考 帧 以 
及 后 续 帧 之 间 差 值 的 两 种 计算 方法 结合 起 来 。 这 可 以 表示 为 

p(x,y,n) 2p(c(x,y,n —1) ,c(x,y,n) ,c'(x,y,n) ,c(x,y,n *1)) (10.35) 

HP, c(x, y, n) 是 比较 当前 帧 和 参考 帧 的 变化 检测 的 结果 ; c(x, y, n) 是 
当前 帧 和 前 一 帧 的 变化 检测 结果 。 这 种 方法 降低 了 阴影 的 检测 ， 但 阴影 对 移动 物体 的 
背景 显露 很 敏感 。 因 为 它 用 了 下 一 帧 ， 这 个 系统 没有 因果 关系 ， 并 因此 引入 延迟 。 


10.5.2 ”用 二 进 制 掩 码 和 原始 图 像 的 后 处 理 


后 处 理 可 使 用 视觉 内 容 来 细 化 分 类 结果 。 在 这 种 情况 下 ， 原 始 序列 和 分 类 结果 一 同 
使 用 。 这 一 正规 化 基于 仅 从 当前 帧 或 同时 从 当前 帧 和 参考 帧 中 提取 出 的 特征 分 析 : 

p(x,y,n) 2p(ex,y,n 21) f(x,y) ) (10. 36) 

p(Gx,y,n) 2p(ex,y,n) fy n) frs yr) (10.37) 

SEW (x, y, r), BARN WEAR WL, JEU EE FH EG E343 

类 的 特征 不 同 。 运 动 、 颜 色 和 边缘 信息 就 是 典型 的 例子 。 在 参考 文献 [2, 370] 

中 用 到 的 运动 信息 是 为 了 避免 孔 和 粗糙 的 轮廓 。 在 物体 有 光滑 的 轮廓 的 假设 下 ,为 

了 达到 空间 同 质 性 ， 在 c(x，y，m) 中 引入 了 弛 承 (relaxation) 的 概念 。 分 类 结果 

不 断 调整 以 适应 在 变化 区 域 边 缘 的 像素 。 这 一 过 程 是 以 取决 于 每 个 边缘 像素 附近 的 
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局 部 阀 值 为 基础 ， 根 据 与 最 大 后 验 检测 结合 的 markov 随机 场 来 确定 的 。 在 参考 文 
献 [100] 中 ， 颜 色 信息 用 来 消除 阴影 和 残余 的 背景 。 把 c(*，y，7) 中 检测 到 的 
变化 像素 组 合 到 一 个 区 域 。 在 区 域 中 使 用 颜色 相似 性 测度 是 为 了 检测 哪些 区 域 也 有 
相似 的 颜色 特征 ， 这 种 方法 合并 区 域 阴 影 和 背景 中 残余 背景 的 部 分 。 

基于 公式 (10.37) 的 后 处 理 技 术 的 典型 实例 是 阴影 检测 技术 。 阴 影 识别 ( 典 
型 的 是 移动 物体 的 检测 ) ， 可 以 改善 变化 检测 的 结果 。 在 参考 文献 [506] H, fs 
测 出 了 由 于 移动 阴影 而 被 遮挡 或 显露 的 背景 区 域 ， 这 种 检测 是 通过 搜索 每 一 帧 背景 
纹理 的 静态 边缘 来 实现 的 。 在 参考 文献 [382] 中 ， 颜 色 信 息 用 来 检测 阴影 。 这 种 
方法 使 用 了 像素 在 被 遮挡 和 照明 时 产生 变化 的 模型 。 同 一 点 在 阴影 和 照明 情况 下 的 
关系 模型 是 对 角 和 矩阵 。 为 外 ， 提 高 空间 光滑 度 可 以 改善 结果 。 




















10.6 结论 


在 本 章 中 ， 我们 提出 了 一 个 变化 检测 的 统一 方案 ， 利 用 这 一 方案 提出 并 讨论 了 
变化 检测 算法 。 该 方案 分 解 为 四 大 步骤 : 特征 提取 、 特 征 分 析 、 分 类 以 及 后 处 理 。 

该 方案 在 提高 和 改善 给 定 的 变化 检测 方法 方面 提供 了 有 益 的 指导 。 而 且 ， 可 作 
为 设计 新 的 变化 检测 算法 的 基础 。 新 的 变化 检测 算法 必须 满足 智能 摄像 机 的 计算 能 
力 或 通信 带宽 的 特定 限制 。 

不 同 的 变化 检测 技术 可 以 在 移动 摄像 机 和 静态 摄像 机 中 使 用 。 如 果 摄 影 机 移 
动 ， 变 化 检测 的 目的 是 识别 连贯 和 不 连贯 移动 区 域 。 前 一 种 对 应 背景 区 域 ， 后 一 种 
对 应 移动 物体 。 如 果 摄 像 机 是 静态 的 ， 变 化 检测 的 目标 是 识别 动态 的 物体 (前景 
和 静态 的 背景 。 在 这 章 中 讨论 的 方法 ， 也 可 以 适用 于 全 局 运动 补偿 后 的 移动 摄影 机 
的 情况 。 

由 于 缺乏 公认 的 测试 序列 和 绩效 评估 ， 在 变化 检测 中 性 能 评估 及 验证 仍然 是 一 
个 重要 的 问题 。PETS 和 CLEAR 评估 工作 室 已 经 做 了 一 些 努力 ! 吕 ;| 。 为 了 能 够 控制 
特定 场景 以 及 自动 产生 真实 数据 5 ， 已 经 生成 了 用 于 评估 目的 综合 数据 集 。 在 参 
考 文献 [519] 中 讨论 了 基于 变化 检测 的 结果 ， 该 参考 文献 是 基于 CLEAR 规律 的 。 

SPEVI 首先 成 立 了 一 个 网 站 (www. spevi. org) 用 于 给 研究 机 构 分 发 数据 集 和 
评估 工具 ， 目 的 是 为 了 广泛 地 访问 普通 数据 集 从 而 进行 算法 的 评估 和 比较 ， 这 将 会 
有 利于 该 领域 的 发 展 。 

关于 变化 检测 的 额外 参考 文献 和 结果 可 以 在 Hu 79 1 Radke ?*! 的 综述 中 找到 。 

变化 检测 算法 的 结果 通常 是 以 团 的 形式 (像素 的 连通 集 ) 、 物 体 的 边界 框 、 或 
者 在 像 平面 上 物体 的 位 置 坐 标 ( 例 如， 团 或 者 边界 框 的 质心 ) 出 现 。 目 标的 当前 
位 置 以 及 随时 间 的 运动 能 够 提供 一 些 信 息 ， 这 些 信息 可 以 使 得 活动 分 析 和 物体 计数 
成 为 可 能 ， 跟 踪 模 块 通常 都 继承 或 者 融合 了 变化 检测 算法 。 物 体 跟踪 将 在 第 11 章 
中 进行 讨论 。 
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WE: 计算 机 视觉 领域 中 ， 目 标 跟 踪 是 一 个 广泛 研究 的 课题 ， 在 参考 每 年 发 表 
于 主要 的 计算 机 视觉 会 议论 文集 和 期 刊 中 的 大 量 稿件 的 基础 上 ， 本 章 介绍 过 去 几 年 
目标 跟踪 的 研究 成 果 和 研究 趋势 。 给 出 了 基于 移入 式 平台 的 现代 设计 方法 的 概述 。 
但 是 ， 由 于 可 利用 资源 、 主 要 内 存 和 CPU 功 耗 的 限制 ， 计算 机 视觉 技术 的 应 用 面 
临 着 挑战 。 本 童 还 描述 了 由 租 入 式 平台 带 来 的 限制 ， 从 面向 应 用 的 角度 评论 了 所 引 
起 的 问题 ,讨论 了 采用 基于 事件 的 摄像 机 和 多 复杂 摄像 机 系统 产生 原始 数据 的 方 
法 。 虽 然 从 数量 上 评 佑 不 同 的 跟踪 方法 的 结果 非常 重要 ， 但 大 量 可 用 的 跟踪 算法 会 
给 我 们 带 来 性 能 评估 的 问题 。 本 音 还 总 结 了 跟踪 评估 构架 ， 讨 论 了 现 有 方法 的 相关 
旨 标 和 优 缺 点 。 并 对 未 来 发 展 趋势 作 了 展望 。 

关键 词 : 目标 跟踪 ， 瞬 入 式 硬 件 ， 实 时 应 用 ， 人 性 能 评估 。 

















11.1 简介 


现代 睹 入 式 智 能 摄像 机 结构 复杂 (第 2 章 和 第 3 草 ) ， 可 以 完成 各 种 各 样 的 图 
像 处 理 任务 ， 比 如 ;图像 增强 和 图 像 压 缩 ， 也 可 以 完成 计算 机 视觉 任务 ， 如 自 校 准 
(93€), 目标 检测 ， 对 象 分 割 (第 10 32) 等 。 本 章 阐 述 了 基于 岁入 式 人 硬件 的 目 
标 跟 踪 方 法 ,详细 介绍 了 关于 最 先进 的 舱 入 式 的 目标 跟踪 方法 。 近 年 来 ， 由 于 移动 
电话 和 智能 摄像 机 的 广泛 应 用 ， 舱 入 式 数 据 处 理 已 成 为 一 个 活路 的 研究 领域 。 考 虑 
到 今天 的 发 展 可 能 产生 的 影响 ， 本 童 也 阐述 了 当前 发 展 趋势 。 

目标 跟踪 是 一 个 中 间 层 次 的 计算 机 视觉 任务 ， 目 的 就 是 利用 位 置 检 测 方 法 找到 
目标 的 运动 路 径 或 轨迹 。 这 样 ， 每 个 轨迹 反映 一 个 物体 的 运动 规律 。 这 里 的 运动 代 
表 了 对 象 轨迹 的 时 间 序 列 。 涉 及 图 像 对 象 ， 比 如 低层 次 的 特征 ( 角 点 、 边 缘 部 分 、 
质心 坐标 ) ， 图 像 区 域 (斑点 、 图 像 分 割 ) 或 者 其 他 的 空间 分 组 。 

遗憾 的 是 ， 在 任意 场景 的 一 般 情况 下 ， 不 存在 能 够 适用 于 跟踪 任意 目标 的 统一 
概念 ， 过 去 几 十 年 ， 人 们 在 工作 中 积累 了 大 量 的 方法 ,在 具体 应 用 时 有 很 好 的 性 
能 ， 但 其 中 缺乏 所 需 的 通用 性 特征 。 缺 点 背后 有 多 种 原因 (许多 也 应 用 在 整个 计 
算 机 视觉 领域 ) 。 

CD 视觉 信息 在 数据 中 呈现 的 丰富 性 和 可 变性 ， 使 得 它们 很 难以 不 变 的 方式 来 
表示 一 个 目标 。 
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CQ) 面向 应 用 的 视角 和 制约 因素 推动 着 跟踪 概念 的 发 展 。 

© 高 层次 信息 的 使 用 引入 了 一 些 特 性 ， 这 通常 对 特定 场景 有 利 ， 但 对 其 他 场 
景 有 所 限制 。 

跟踪 任务 的 复杂 度 源 于 观察 到 的 数据 通常 被 噪声 、 观 察 误差 和 杂 波 所 污染 。 因 
此 ， 把 观察 到 的 数据 分 类 引入 到 轨迹 就 需要 更 先进 的 技术 来 进行 数据 关联 和 状态 估 
计 。 由 于 近年 来 戏 和 式 硬件 技术 的 发 展 ， 夹 杂 大 量 重要 场景 噪声 的 能 和 人 式 平台 使 实 
现 多 交互 式 目标 的 实时 数据 关联 和 状态 估计 成 为 可 能 。 本 章 还 做 了 现代 目标 跟踪 算 
法 的 综述 ， 这 些 方法 的 依据 是 目标 的 特征 (重心 、 斑 点 、 轮 廓 、 颜 色 等 ) 和 跟踪 
方法 的 类 型 (确定 性 和 概率 的 方法 ， 如 基于 内 核 的 跟踪 ， 多 假设 跟踪 ， 蒙 特 卡 风 
技术 ) 。 主 要 的 焦点 集中 在 受 限 的 技术 上 ， 如 有 限 的 能 人 式 硬 件 计算 资源 和 特定 提 
高 速度 的 实现 细节 。 网 络 、 合 作 、 移 动 等 设备 勾勒 出 了 有 关山 入 式 计算 机 平台 的 相 
入 式 类 型 驱动 的 重要 部 分 。 这 里 也 讨论 了 面向 应 用 的 观点 所 带 来 的 相关 问题 。 高 目 
标 密度 ， 比 如 城市 中 的 行人 或 者 汽车 的 堵塞 ， 明显 增加 了 跟踪 任务 的 复杂 程度 。 本 
章 中 提出 了 更 先进 的 基于 部 分 目标 的 表示 和 堵塞 处 理 的 技术 。 此 外 ， 由 于 视觉 的 限 
制 或 者 遮挡 的 原因 导致 单 体 摄像 机 不 能 充分 可 靠 地 探测 和 追踪 目标 ， 这 时 我 们 可 以 
采用 多 摄像 机 ， 这 里 阐述 了 用 多 摄像 机 来 处 理 重合 和 非 重 全 的 情况 。 仿 生 光 学 传 感 
器 的 硬件 实现 也 支持 目标 跟踪 ,使 用 传感器 的 实现 如 DVS (也 称 作 TVS) 或 者 
视觉 处 理 芯 片 呈 来 实现 。 性 能 评估 和 算法 比较 在 评估 出 最 适合 的 特定 应 用 中 充分 
发 挥 着 重要 作用 。 本 章 介 绍 了 建立 跟踪 评估 框架 ， 错 误 测 量 和 数据 集 ， 并 描述 所 提 
出 方法 的 优点 和 缺点 。 最 后 ， 还 确定 了 该 研究 的 未 来 趋势 和 该 领域 公开 的 问题 。 

参考 文献 [587] 是 很 好 的 关于 跟踪 算法 的 综述 。 具 体 而 言 ， 关 于 更 简明 的 视 
频 跟踪 综述 请 参见 参考 文献 【536] 。 对 视觉 监控 感 兴趣 的 读者 可 以 参考 Hu 等 人 的 


综述 所] 。 应 用 于 摄像 机 网 络 和 视频 监控 中 的 追踪 算法 将 在 第 13，15，17 章 中 详 
细 介 绍 。 



































11.2 最 先进 的 跟踪 技术 


11.2.1 目标 跟踪 算法 


我 们 把 基于 视频 的 目标 跟踪 算法 归结 为 一 种 对 应 性 问题 。 给 定 一 组 视频 流 或 一 
组 图 像 序列 ， 目 的 就 是 在 连续 图 像 帧 中 检测 到 的 目标 之 间 建 立 一 种 对 应 关系 。 为 了 
降低 任务 搜索 的 模糊 程度 ， 我 们 正在 寻找 具体 不 变 的 目标 属性 特征 。 可 以 使 用 图 像 
特征 来 创建 这 种 属性 的 分 辨 力 。 跟 踪 目 标的 空间 可 以 从 单 点 扩展 到 点 集 。 一 直 扩 展 
的 空间 会 增强 目标 的 特征 属性 ， 区 域 的 表示 符号 有 : 直方 图 、 形 状 、 基 于 整体 的 模 
板 ， 这 些 都 表达 了 判别 信息 。 在 跟踪 任务 的 术语 中 ， 对 目标 属性 进行 量化 的 测试 过 
程 称 为 观察 。 每 一 个 类 别 的 观察 对 象 都 被 认为 是 单独 的 跟踪 目标 ， 对 这 些 观 察 对 象 
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进行 分 类 是 一 项 非常 复杂 的 任务 。 这 种 复杂 源 于 对 未 知 噪声 内 在 的 不 确定 性 ， 这 种 
不 确定 性 可 能 是 真实 检测 或 错误 警报 引起 的 。 这 种 情况 的 典型 例子 是 以 背景 为 依托 
的 小 目标 检测 方法 2 。 

在 计算 机 视觉 领域 有 许多 目标 跟踪 方法 ,包括 卡 尔 曼 滤 波 跟 踪 法 5 、 粒 子 
UE Be BR Bag PROMOS) ee GE BR Be EP) 、 模 板 匹 配方 法 50525490 de Bg NR Ex 
法 6 、 内 核 跟踪 法 [535] 、 基 于 模型 跟踪 法 05.25] 、 基 于 颜色 跟踪 法 52027.326 以 
BBS IRE 。 

按 不 同 的 标准 可 以 把 跟踪 算法 分 类 ， 比 如 ， 算 法 所 使 用 的 信息 类 型 、 信 息 是 怎 
样 产生 的 、 采 用 确定 的 还 是 随机 的 方法 ， 或 者 进程 中 所 使 用 的 数据 类 型 。 图 11.1 


描述 了 一 种 典型 跟踪 法 的 分 类 。 




















基于 外 观 形状 /体积 



























基于 模板 











区 














图 11.1 基于 有 用 信息 的 跟踪 方法 的 分 类 


一 般 来 说 ， 基 于 区 域 的 原始 像素 强度 的 简单 统计 ， 比 如 颜色 、 梯 度 、 滤 波 顺 响 
应 ， 并 不 能 捕获 下 面 的 图 像 结 构 ， 或 跟踪 目标 的 几何 外 形 。 简 单 地 说 ， 自 下 而 上 的 
分 割 技术 ， 比 如 移动 的 前 景 或 者 小 个 体 分 割 ， 通 常会 产生 暂时 性 的 不 稳定 分 割 结 
果 ， 从 这 样 的 结果 中 不 能 推断 出 准确 的 几何 描述 ， 跟 踪 目 标 以 及 部 分 跟 踊 目标 的 特 
征 〈 颜 色 、 纹 理 ) 7, 

基于 直方 图 的 技术 ， 比 如 基于 色彩 的 粒子 滤波 器 ， 不 是 特别 需要 分 割 。 单 一 
或 多 区 域 彩色 直方 图 对 目标 对 象 进行 了 描述 。 这 种 测量 方法 可 能 影响 粒子 权重 ， 
它 是 由 计算 相似 性 的 测量 或 者 测量 目标 的 直方 图 与 参考 直方 图 之 间 的 距离 导出 
的 ， 最 常用 的 巴 氏 测量 距离 为 -log bip KEW p M q 分 别 是 测量 的 和 参考 直 
方 图 的 值 。 
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由 于 使 用 基于 特征 的 技术 ， 在 搜索 领域 进行 了 检测 的 特征 比较 。 为 了 连接 前 一 
帧 和 当前 帧 的 目标 ， 我 们 必须 采取 前 一 跟踪 目标 和 下 一 区 域 之 间 相 似 性 的 搜索 方 
法 。 换 句 话 说 ,动态 方法 是 基于 两 帧 之 间或 图 像 预 定义 区 域 中 每 个 位 置 的 运动 估计 


FH AH 


通过 考虑 信息 是 怎么 产生 的 这 个 问题 ,我们 可 以 把 跟踪 算法 分 解 成 低层 次 跟踪 
方法 ( 自 下 而 上 的 方法 ) 和 基于 模型 的 方法 ( 自 上 而 下 的 方法 )。 第 一 种 情况 ， 图 
像 被 分 割 成 许多 区 域 ， 运 用 图 像 的 有 用 信息 来 确定 和 跟踪 目标 ， 第 二 种 方法 就 是 运 
用 场景 中 目标 的 有 关 知 识 。 

男 一 种 分 类 要 考虑 问题 能 否 通过 确定 的 或 随机 的 方式 来 解决 。 运 用 确定 的 方 
法 ,跟踪 通 过 关联 规则 来 确定 ， 这 种 关联 是 通过 前 一 帧 获得 的 信息 得 到 的 ， 跟 踪 问 
题 已 经 作为 优化 问题 解决 了 。 通 过 概率 的 方法 ， 就 可 以 运用 估计 技术 来 估计 新 位 
置 ， 比 如 粒子 滤波 器 ， 卡 尔 曼 滤波 器 .了 ， 这 就 是 跟踪 关联 的 PDF (Probability 
Density Function, PDF) 准则 。 

根据 在 关联 处 理 中 涉及 哪 种 数据 ， 跟 踪 算 法 可 以 分 为 多 目标 的 数据 方法 ,或 者 
单 目 标 数 据 方法 。 运 用 多 目标 数据 或 者 利用 MHT ( Mulitiple Hypothesis Track, 
MHT) 的 的 联合 体 是 和 (Joint Probabilistic Data Association Filler, JPDAF) 9^?! 有 
关系 的 。 当 卡尔 曼 滤 波 器 、 粒 子 滤波 需 用 于 多 目标 跟踪 时 ， 数 据 关联 过 程 是 特别 有 
用 的 。 这 种 滤波 器 假设 在 每 个 时 段 有 一 个 单一 测量 值 ， 确 定 特定 目标 和 目标 状态 的 
匹配 一 致 性 很 重要 ， 因 为 在 这 种 情况 下 ， 需 要 跟踪 多 目标 ， 这 就 需要 状态 估计 的 解 
决 办 法 和 数据 关联 。 


11.2.2 ”基于 藤 入 式 硬 件 的 计算 机 视觉 


近来 ， 人 们 努力 把 重点 集中 到 基于 舰 入 式 硬件 计算 机 视觉 的 算法 上 。 其 中 ， 系 
Hk FPGA 上 运行 ， 并 开发 了 CMOS 芯片 和 DSP 平台 。 关 于 计算 机 视觉 任务 , 
Shashua 等 人 :1 开发 了 一 套 苦 入 式 系统 ， 这 套 系统 可 以 用 一 套 指令 集 来 检测 行人 。 
这 时 ，Sen EAO E FPGA 上 运行 简单 的 视觉 任务 来 实现 手势 识别 。Chiu EAL 
把 一 个 CMOS 图 像 芯片 和 RISC 处 理 器 集成 到 一 个 敬 入 式 视 觉 系统 。 他 们 的 目的 就 
是 在 变化 的 环境 下 进行 车 辆 计数 。Schulessman 等 人 '” 开发 了 基于 FPGA 的 光 流 跟 
踪 系 统 。 基 于 高 斯 混合 模型 的 图 像 背 景 相 减 后 ， 他 们 通过 使 用 光 流 来 计算 运动 矢 
量 ， 这 种 方法 可 以 实现 目标 跟踪 。Arth 等 人 "设计 了 一 种 般 入 式 操 作 系 统 ， 通 过 
信息 通道 的 连续 记录 来 实现 目标 探测 和 目标 跟踪 ,他 们 的 跟踪 算法 是 基于 卡尔 曼 滤 
URB 。Glasl 等 人 中 描述 了 一 种 基于 舱 入 式 视频 的 计算 机 视觉 系统 ， 这 种 系 
统 用 来 收集 高 速 公 路 上 的 交通 数据 。 改 进 的 Adaboost 算法 用 来 完成 探测 任务 ， 改 
PEAY Lucas- Kanade 算法 用 来 完成 跟踪 任务 ， 这 两 者 组 成 了 这 套 系统 。 采 用 多 假设 
跟踪 ，Polat 等 人 "完成 了 跟踪 连续 视频 的 结构 体系 ， 他 们 采用 三 维 模型 跟踪 算法 
来 收集 更 多 的 信息 。 他 们 使 用 基于 Hausdorff 距离 的 相似 匹配 算法 来 进行 几何 转换 ， 
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这 种 转换 就 是 最 佳 匹 配 。 

Fleck 等 人 :3 设计 了 一 种 分 布 式 摄像 机 的 网 络 ， 这 种 摄像 机 可 以 实现 实时 多 
目标 跟踪 。 这 种 算法 是 基于 粒子 滤波 器 的 ， 这 里 用 一 系列 的 粒子 来 说 明 每 个 潜在 独 
立 的 目标 。 可 以 用 HSV 色彩 空间 的 颜色 分 布 来 代表 目标 。 分 别 在 HS 空间 和 V 空 
间 计 算 、 合 并 各 自 的 距离 测度 可 以 降低 相似 计算 的 复杂 度 。 尽 管 已 经 实现 了 少量 目 
标的 实时 跟踪 ， 然 而 ， 当 目标 数量 增多 时 ， 效 果 就 会 降低 。 在 中 央 主 机 里 可 以 完成 
独立 摄像 机 的 协作 和 摄像 机 之 间 的 目标 切换 。 

Apewokin 等 人 加 设计 出 一 种 基于 和 通信 式 平 台 的 运动 学 模型 来 跟踪 多 个 人 。 这 
个 体系 包括 运动 检测 模块 和 跟踪 模块 。 首 先 ， 建 立 适合 的 背景 模型 ， 然 后 实施 链接 
分 析 来 生成 运动 目标 或 者 小 个 体 。 鉴 定 完 运 动 中 的 小 个 体 ， 被 检测 的 小 个 体 之 间 的 
帧 就 会 对 应 建立 。 质 心 或 者 所 谓 的 重心 都 可 以 代表 被 检测 目标 。 数 据 关联 分 为 两 个 
阶段 ， 把 3 个 帧 时 间 跨 度 内 的 数据 关联 起 来 ， 然 后 ， 在 一 个 更 长 的 帧 跨度 内 ， 检 测 
失 配 数据 的 可 能 匹配 后 。 第 二 阶段 能 够 处 理 复杂 的 情况 ， 如 遮挡 ， 小 目标 的 合并 和 
分 裂 。 

Arth 等 人 加 设 计 了 艇 入 式 车 牌 识别 系统 ， 其 中 车 牌 检测 步骤 和 使 用 卡尔 曼 滤 
波 器 的 状态 估计 相 结合 。 采 用 多 次 时 间 累 积 的 车 牌 观测 数据 方法 和 基于 卡尔 曼 滤 波 
器 的 预测 方法 ， 检 测 区 域 具 限于 特定 的 图 像 区 域 。 已 提出 一 种 简单 的 时 间 联 合 方法 
实现 单个 数据 间 的 联合 ， 可 以 减少 计算 时 间 并 提高 全 局 字符 的 识别 能 力 。 

对 于 不 重 释 的 摄像 机 视野 ，Arth 等 人 :2 还 描述 了 基于 特征 目标 重新 识别 的 符 入 
式 构架 。 在 目标 跟踪 任务 中 ， 获 取 特 定 目标 的 特征 是 关键 问题 。 因 此 ， 在 面 对 模 糊 不 
清 的 目标 关联 的 情况 下 ， 一 个 特定 目标 的 描述 可 以 被 消除 。 为 了 在 大 量 潜在 的 匹配 目 
标 中 实现 快速 计算 ， 这 个 构架 采用 了 排列 在 同一 结构 层次 的 紧凑 PCA- SIFT 特征 。 

Arth 等 人 展现 了 一 种 可 以 在 DSP 平台 运行 的 府 入 式 车 辆 探测 系统 和 目标 跟 
踪 的 构架 ， 跟 踪 基 于 在 不 同时 刻 观 测 到 的 图 像 的 最 近邻 域 ， 以 及 跟踪 目标 未 来 状态 
预测 的 卡尔 曼 滤波 方法 相 结合 。 

Lizenberger 等 人 "| 完成 的 基于 跟踪 系统 智能 摄像 机 ， 把 自 适应 的 均值 偏 移 的 
跟踪 算法 应 用 在 跟踪 车 辆 和 人 上 ， 神 经 形态 的 时 空 对 比 视觉 传感器 传递 一 种 称 作 地 
址 的 信息 ， 暗 示 有 移动 的 物体 ， 这 种 地 址 事件 以 空间 聚集 ， 它 们 的 重心 通过 一 种 漂 
移 算 法 被 跟踪 。 均 值 漂移 算法 的 意思 是 低 权 重 计算 : 使 用 统一 的 内 核 空间 ， 基 于 先 
前 时 间 步 长 的 位 置 ， 以 渐进 的 方式 来 计算 新 的 集合 位 置 5221 。 

Chen 等 人 :设计 了 一 套 基于 多 目标 网 络 结构 的 无 线 智能 摄像 机 的 分 布 式 跟 踪 
系统 ， 提 供 少 量 的 摄像 机 计算 资源 ， 摄 像 机 利用 简单 的 背景 减法 算法 和 稍 低 于 实际 
的 帧 速率 ， 完 成 运动 目标 的 探测 。 跟 踪 以 中 心 化 的 方式 实现 。 来 自 多 个 摄像 机 的 日 
标 位 置 由 中 心服 务 器 按时 间 累 积 记录 ， 马 尔 科 夫 链 蒙 特 卡 罗 数 据 关联 技术 对 累积 的 
数据 进行 分 类 ， 从 而 使 得 每 个 类 别 代表 一 个 目标 的 轨迹 。 

Aaritaoglu 4 A 7*8 yR T Hydra， 这 是 一 个 能 够 进行 多 人 检测 和 跟踪 的 系统 。 
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它 通 过 结合 基于 外 形 的 模型 来 检测 移动 物体 并 进行 分 类 。 进 而 运用 二 阶 运动 模型 来 
跟踪 这 些 分 类 目标 。 

Khalegi 等 人 5 发 展 了 一 种 可 以 进行 计算 机 视觉 算法 的 嵌入 式 视 觉 系统 ， 这 个 
系统 可 以 完成 不 同 任务 ， 比 如 背景 建 模 ， 立 体 匹配 ， 在 其 他 一 些 任务 中 ， 也 提 到 了 
三 维 跟踪 应 用 。 

Medeiros 等 人 5 为 SIMD 处 理 器 采用 了 基于 颜色 的 粒子 滤波 器 。 执 行 的 核心 
是 并 行 计 算 的 粒子 重量 ， 结 合 被 检测 目标 的 彩色 直方 图 和 粒子 滤波 器 可 以 用 于 跟踪 
Hs, 


11.2.3 使 用 视觉 芯片 来 实现 实时 跟踪 


可 视 目 标 跟 踪 系 统 能 够 利用 焦 平面 视觉 传感器 来 预 处 理 场 景 信 息 。 与 基于 帧 的 
探测 器 相 比 较 ， 这 种 预 处 理 在 一 定 意义 上 减轻 了 处 理 器 的 计算 负担 ， 能 够 实现 成 本 
低 、 功 耗 低 ， 并 且 可 使 结构 紧凑 。 不 同 种 类 的 视觉 传感器 的 出 现 使 焦 平面 预 处 理 系 
统 能 够 支持 一 种 快速 的 可 视 跟 踪 。 由 Analogic 使 用 ACE16k 可 视 化 芯片 591 生产 
的 Bi-i 可 视 系统 ， 即 pyst? , 5 neuricam 公司 的 VISoc 可 视 化 处 理 器 中 ， 或 者 基 
于 CSEM ^! 可 实现 对 比 度 和 定向 提取 功能 的 传感器 ， 对 实时 目标 跟踪 来 说 ， 均 可 
成 为 有 潜力 的 平台 。 

生物 激励 光 跟 踪 传 感 器 的 硬件 实现 由 Etienne- Cummings"! 和 Indiver ^"! 分别 
描述 。 然 而 ， 前 者 仍然 需要 一 个 额外 的 处 理 阶段 来 产生 跟踪 结果 ， 后 者 已 经 提供 了 
对 象 位 置 代码 ， 这 种 代码 以 模拟 电压 信号 形式 出 现在 可 视 化 传感器 的 专用 输出 引 脚 
上 。 然 而 这 样 有 一 个 弊端 就 是 这 些 传感器 的 额外 空间 增加 了 芯片 的 信和 叶 处 理 周期 ， 
结果 导致 像素 处 理 效率 下 降 。 在 这 些 忆 片 中 一 种 低 于 320 x 240 像素 的 分 辩 率 是 很 
普通 的 ， 而 且 ， 它 们 中 的 大 多 数 都 不 能 输出 人 眼 可 视 的 图 像 。 但 是 能 提供 预 处 理 、 
可 视 景 物 的 抽象 数据 。 表 11. 1 给 出 了 所 引用 的 可 视 跟 踩 系统 之 间 的 比较 ， 主 要 有 
关键 参数 和 作为 数字 电路 优点 的 时 间 分 辩 率 。 

表 11.1 使 用 不 同 可 视 芯 片 的 实时 跟踪 结果 的 比较 



































系 统 | 分 辩 率 /像素 性 能 BR 性 参考 文献 
lps (AER 数据 流 时 
m p> ‘ on DVS, #4 USB AER 
间 戳 分 辩 率 ) . , us 
DVS + PC 128 x 128 : _ | 接口 和 JAER java 处 理 的 参考 文献 [140] 
2.8ms (系统 反应 延 
个 人 计算 机 
3R) 
decal “bese Ims ( AER 数据 流 时 DVS 和 600MHz DSP 参考 文献 [328] 
5 +D x i me " 2575 XH 
间 惟 分 辨 率 ) 的 嵌入 式 处 理 
2.84ms ( 帧 处 理 时 带 有 DSP 的 ACE4k 视 
Bi-i 64 x64 ERN m 参考 文献 [529] 
间 ) AEST 
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( 续 ) 

系 统 | 分 辩 率 /像素 性 能 复 m 人 性 参考 文献 
180 ~3580 有 模拟 电压 输出 的 视 

Cummings 60 x36 = R Sh E 参考 文献 [110] 

跟踪 坐标 /s pros 

1.2 ~6hs 有 模拟 电压 输出 的 视 

Indiveri 26 x 26 参考 文献 [250 

ndiveri x (反应 时 间 ) MGE 考 文献 [ ] 

Lizenberger 等 人 1328] 和 Delbruck ^ & 经 实现 了 基于 DVS 进行 目标 跟踪 的 能 入 





式 视觉 系统 和 基于 异步 地 址 事件 数据 的 快速 追踪 算法 。 这 种 艇 人 式 系统 由 一 个 数字 
视屏 编码 器 (DVS) 组 成 ， 这 个 编码 器 包含 了 一 个 128 x 128 像素 生物 阵列 ， 具 有 
类 似 生物 自动 自发 信号 的 功能 。 这 些 像素 能 响应 一 些 相关 的 轻微 强度 的 改变 ， 在 像 
素 和 矩阵 中 通过 公用 的 总 线 能 瞬间 迁移 地 址 ， 即 它们 的 位 置 。 这 种 场景 信息 的 编码 策 
略 被 称 作 地 址 - 时间 表示 法 。 这 种 基 动态 视觉 传感器 

于 事件 的 方法 在 检测 移动 目标 时 ， 
能 从 根本 上 克服 基于 帧 追踪 目标 时 
存在 的 对 应 问题 。 由 于 视觉 传感器 
获得 的 信息 与 时 间 无 关 ， 每 一 个 像 
素 沿 着 物体 运动 的 路 径 都 会 产生 事 
件 , 与 物体 的 速度 无 关 。 物 体 的 连 
续 运 动 路 径 包 含 在 一 个 向 量 之 中 ， 
该 向 量 由 像素 地 址 及 其 对 应 时 间 截 
组 成 。 优 化 目标 跟踪 算法 ， 使 之 能 
运行 在 最 小 的 存储 和 计算 资源 上 ， 
可 在 低 功 耗 DSP jb Fr eX (st ub HE ds HP 
实现 。 成 像 传感器 的 像素 能 抑制 恒 
定 的 背景 信息 ， 仅 仅 反 映 场景 的 变 
化 部 分 ， 因 此 可 完成 移动 物体 的 检 





一 









、 ca " 图 11.2 FIR TRASK ASC WEAR 
测 。 对 一 个 典型 的 多 目标 运动 跟踪 oo 


任务 ， 从 20 PEEK PEPE 1 ETE 





为 缓冲 区 即 可 满足 要 求 ， 且 仅 需 几 k 字 节 的 存储 空间 。 因 为 处 理事 件 的 速度 极 快 ， 
并 不 需要 事件 缓冲 区 。 

图 11.2 描述 了 通用 的 能 入 式 系统 结构 ， 包 括 一 个 成 像 传感器 、 一 个 先进 先 出 
缓存 存储 器 、 来 自 AD 公司 的 BES37 DSP。 时 钟 频率 为 600MHz 时 钟 频率 ，128kbit 
内 存 和 32Mbit 外 部 SDRAM。 对 于 高 分 辩 率 视频 系统 进行 数据 处 理 来 说 ， 这 种 有 限 
的 存储 资源 远 远 不 够 ， 因 为 它 连 常规 视频 处 理 的 需求 也 不 能 满足 。 可 视 传 感 器 和 
DSP 总 共 需 要 2.5W 的 电能 。 阵 列 内 生成 事件 的 像素 地 址 通过 15bit 的 并 行 总 线 传 
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到 FIFO， 实 施 一 个 简单 的 4 段 式 握手 协议 。FIFO 位 于 传 感 锅 和 DSP 之 间 ， 能 够 满 
足 地 址 事件 发 生 的 峰值 ， 并 且 它 的 存储 访问 频率 可 达 40MHz。 在 处 理 阶段 ，DSP 收 
到 的 每 一 个 地 址 事件 被 贴 上 标签 ， 标 签 上 的 时 间 戳 以 处 理 器 的 时 钟 周期 为 基准 ， 其 
精度 为 lms。 整 个 处 理 过 程 中 包括 了 AE 的 获得 和 时 间 戳 生成 、 聚 焦 、 跟 踪 ， 也 包 
括 速 度 的 粗略 估计 。 

简单 的 算法 可 以 总 结 成 如 下 步骤 : 

D 从 先进 先 出 的 缓存 中 接收 新 的 AE 

D 从 簇 列表 中 找到 新 的 AE 所 在 徐 ， 计 算 该 簇 的 地 址 X; = (i, 7) 到 所 有 得 中 
心 的 距离 R。 

O 如 果 找 到 一 个 徐 ， 其 中 心 x 满足 R= |x -x | < Ry, HUN FIRE, WA 
就 相应 地 更 新 所 有 簇 特征 。 

(4) 如 果 没 有 发 现 满足 条 件 的 徐 ， 则 寻找 中 心 为 X; 的 新 徐 ， 并 用 低 权 重 、 容 量 
缺 省 值 和 创建 时 间 进 行 初始 化 ， 这 样 赋予 该 簇 一 个 新 的 标签 (唯一 的 识别 码 ) 。 

图 11.3 解释 说 明了 簇 的 更 新 过 程 。 某 运动 物体 Rk 
具有 速度 v 和 原始 艇 中 心 x(t) ， 如 果 x, 是 其 边缘 产 RE D 
生 的 AE 地 址 ， 则 新 的 中 心 坐 标 x (t+ de) 计算 
如 下 : 























x(t+dt) =x(t)atx,(1-a) (11.1) 
其 中 ，(0 <w<1) 是 算法 的 参数 ，di 是 当前 和 最 近 
一 次 AE 被 存 人 复 时 间 差 ， 这 样 就 通过 改变 a 来 控 
制 篮 中 心 ， 通 常 选择 a 靠近 1， 从 而 得 到 平滑 的 轨 
迹 ， 同 时 边界 范围 R. 得 到 更 新 : 
R(t+di) Zmax| R,, ,R(t) +a +R- (1-a)} (11.2) 
其 中 ，R, 是 参数 ， 其 主要 功能 是 保证 边界 限定 在 一 定 的 范围 之 内 。 搜 索 距 离 如 果 
大 于 边界 线 的 大 小 ， 则 允许 边界 扩展 来 自 适应 跟踪 物 的 大 小 。 否 则 ， 就 应 该 允许 簇 
缩小 。 为 每 一 个 簇 定 义 搜索 距离 R、， 作 为 边界 尺寸 RAAF: 
Rg =min| Rao Re! R mutile | (11.3) 
HEP , R pupe GRE 1 «Rau <3) 和 RR 是 算法 的 参数 ,最 小 化 条 件 保证 边界 块 
大 小 保持 在 设 定 的 范围 之 内 。 在 追踪 期 间 , 两 个 艇 接近 的 情况 下 ,Ri 系数 就 显得 
很 重要 的 ,合理 地 选择 它 的 值 将 会 阻止 一 个 簇 直 接 越过 男 一 个 簇 ,因为 其 搜索 半径 是 
受 限 的 。 而 且 R. 的 最 大 变化 范围 由 参数 a 确定 。 
事件 发 生 的 平均 频率 可 反映 在 徐 的 权重 WW 中 ,从 而 有 : 


Wa edi) 2WG) oc t1 -a) (11.4) 


很 不 活路 的 艇 有 低 的 AE 频率 ， 且 其 权重 也 低 。 
在 算法 的 实际 应 用 中 通常 为 每 一 个 参数 ， 如 位 置 、 大 小 、 权 重 等 分 别 定义 一 个 








图 11.3 地 址 事件 簇 的 连续 轨迹 
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a 是 不 错 的 选择 (ay, ap, Ay) o 

周期 性 (根据 不 同 应 用 从 10 ~ 100 次 / 秒 不 等 ， 地 扫描 当前 的 艇 列表 ， 由 于 删 
除 过 时 的 、 不 活跃 的 艇 ， 同 时 更 新 速度 矢量 。 

如 果 物 体 边缘 的 一 个 新 事件 位 于 其 所 属 徐 的 搜索 范围 之 外 ， 物 体 将 会 分 裂 为 两 
SERWIE. E 11. 4 说 明了 这 个 方案 。 连 续 发 生 的 事件 可 能 归属 于 新 复 C, AM 
取代 存在 已 久 的 艇 C,， 而 且 物 体 也 许 会 永久 地 p 

分 裂 成 两 个 (或 者 更 多 ) 的 复 。 如 果 相 对 应 的 一 2^ 
Vibe (8 SCR SUERTE, UE f 
久 的 旧 艇 ,新 簇 可 能 会 合并 旧 艇 ,这 样 就 导致 | 
了 物体 轨迹 的 不 连续 ， 因 为 物体 会 频繁 改变 它 | 
的 标志 。 

为 了 防止 艇 列表 被 创建 的 时 间 所 存储 。 此 
后 ,搜索 列表 把 AE 重新 归 类 ， 旧 簇 将 会 改进 。 : s 
因此 ， 由 于 很 少 或 者 说 没有 事件 属于 它 ， 新 的 、 4 EEREDUILNTIUR 
重奏 的 篮 将 会 很 快 消失 、 被 清除 。 因 此 ， 使 用 此 算法 能 得 到 一 个 光滑 连续 的 轨迹 。 

该 算法 只 占用 很 少 的 存储 空间 ， 因 为 只 有 入 列表 不 得 不 被 保存 在 存储 空间 里 。 
对 于 以 下 所 讨论 的 大 部 分 测试 场景 (汽车 轨迹 、 人 类 轨迹 ) 约 20 个 艇 组 成 一 个 列 
表 即 可 满足 算法 需求 。 该 簇 列表 仅 需 2kB 的 存储 空间 就 足够 了 计算 的 复杂 度 适 中 。 
因此 ， 为 一 个 新 事件 要 计算 多 次 时 间 地 址 和 复 中 心 的 距离 。 使 用 矩形 边界 窗 代替 圆 
形 边界 窗 能 减少 计算 复杂 度 ， 但 是 要 为 每 一 个 事件 更 新 每 一 个 艇 的 特征 。 当 前 算法 
在 实时 车 辆 AE 数据 中 使 用 时 间 步 长 为 Ims。 

这 个 系统 用 来 监视 道路 交通 情况 的 变化 。 掌 握 道路 情况 变化 策略 能 够 预示 即将 
来 临 的 交通 堵塞。 这 个 视觉 系统 安装 在 被 测 路 线 上 方 ， 并 对 来 自行 驶 车 辆 的 AE 数 
据 进行 处 理 。 图 11. 5 显示 了 3 个 静止 图 像 ， 图 像 上 有 以 大 约 30km/h 的 运动 速度 
行驶 的 两 辆 汽车 在 3s 内 的 轨迹 。 为 了 可 视 化 AE 数据 ， 针 对 某 一 固定 时 隙 间隔 
中 的 像素 活动 性 ， 以 类 似 图 像 的 方式 表达 其 直方 图 。 图 中 显示 了 目标 在 过 去 Is 
的 轨迹 。 对 所 有 的 道路 ， 可 以 观察 到 典型 的 超过 SOm 的 轨迹 算法 。 图 11. 6 描述 
T 6 辆 车 在 两 条 路 上 的 运动 轨迹 。 基 于 摄像 机 的 安装 高 度 和 光学 参数 ， 通 过 简单 
的 几何 投影 把 视觉 传感器 的 坐标 转换 成 通用 的 世界 坐标 。* 轴 显 示 了 路 的 长 度 ， 
单位 是 m (包含 了 车 辆 方向 信息 )，y 轴 显 示 了 路 的 宽度 ， 单 位 是 由。 两 个 邻近 
的 车 辆 轨迹 之 间 的 距离 是 0. 2m。 

图 11.7 给 出 了 基于 AE 仿真 数据 的 行人 追踪 算法 应 用 结果 。AF 仿真 数据 来 
自 一 个 140 x 180 像素 点 的 视频 序列 。 在 左 侧 ， 从 2s 的 视频 序列 提取 了 两 幅 图 
像 ， 在 右边 ,给 出 了 场景 的 AE 仿真 数据 及 其 追踪 结果 。 图 11.7 中 国 形 指示 不 
同人 的 位 置 ， 目 标 被 唯一 的 ID 号 码 识别 ， 并 且 用 一 个 箭头 表示 运动 方向 和 速度 。 
例如 ，ID198 被 直接 追踪 ，ID227 是 在 下 一 个 序列 中 消失 的 阴影 效应 。 
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11.5. 利用 动态 视觉 传感器 监控 2 辆 汽车 在 一 条 路 上 的 运动 轨迹 


可 以 在 开放 性 资源 jAER"” 中 找到 9 美国 经 济 评论 上 说 明 的 不 同 算法 。 
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名“ 可 利用 资源 库 :http: //jaer. wiki. sourceforge. net 





167 





图 11.7 


使 用 AE 数据 对 人 的 跟踪 
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11.3 结构 


11.3.1 基本 描述 


与 个 人 计算 机 计算 能 力 、 可 用 内 存 和 内 部 数据 的 表达 相 比 ， 舱 入 式 平 台 拥 有 有 
限 的 资源 。 资 源 的 局 限 性 为 跟踪 算法 施加 了 很 多 约束 。 

算法 中 的 一 些 计算 步骤 (如 下 ) 面临 革 乏 的 资源 ， 从 而 难以 实现 实时 追踪 。 

D 计算 轨迹 跟踪 的 复杂 描述 符 〈 如 多 维 颜色 直方 图 ) 。 

2) 引入 大 量 的 关联 假设 (例如 ， 马 尔 可 夫 链 蒙特 卡尔 计算 ， 多 假设 跟踪 ) ， 会 
导致 搜索 空间 维度 的 组 合 爆炸 。 

O 涉及 互相 影响 的 大 量 目标 ,需要 复杂 的 遮挡 处 理 。 

(D 需要 许多 的 迭代 或 搜索 步骤 来 估计 新 的 目标 状态 。 

另 一 方面 ， 随 着 晶体 管 密度 增加 (摩尔 定律 )， 诸 如 高 度 并 行 的 SIMD 处 理 引 
擎 ， 这 些 艇 入 式 并 行 处 理 架 构 的 性 能 将 不 断 提升 ， 能 应 对 更 复杂 的 追踪 算法 。 

在 从 和 人 系统 中 ， 需 要 考虑 许多 与 便 件 和 软件 相关 的 内 容 。 有 效 的 硬件 、 软 件 对 
于 达到 预计 的 设计 目标 和 增加 系统 的 和 鲁 棒 性 极其 重要 。 特 别 地 ， 一 个 智能 的 软件 设 
计策 略 对 于 资源 的 有 限 显得 格外 重要 。 只 要 有 可 能 ， 就 应 该 避免 动态 分 配 存储 空间 
的 计算 方式 ， 例如， 使 用 静态 数组 代替 动态 列表 ; 在 编译 时 就 预知 数组 大 小 会 更 
好 。 一 个 常见 的 改进 策略 是 使 用 完整 的 算法 计算 代替 浮 点 型 的 计算 。Schlessman 等 
人 中 声明 要 考虑 特别 的 设计 软件 和 硬件 ， 可 以 把 跟踪 系统 从 PC 移 到 现场 可 编程 
门 阵列 平台 。 作 者 指出 了 避免 复杂 算法 操作 的 重要 性 ， 例 如 二 次 方 根 运算 和 除法 运 
算 ， 以 及 最 小 化 表示 像素 的 比特 流 。 在 其 他 硬件 结构 中 ， 为 每 一 个 任务 设置 处 理 
单元 。 

一 个 可 能 构架 包括 一 个 摄像 机 (例如 一 个 标准 的 CCTV 摄像 机 )， 以 及 在 一 个 
能 入 式 的 便 件 平台 上 能 够 实现 对 当前 场景 进行 分 析 的 图 像 处 理 系统 ， 该 系统 基于 视 
频 流 。 可 在 线 执行 这 样 的 分 析 来 评估 当前 监视 方案 。 由 于 这 样 的 分 析 ， 主 要 的 典 
型 参数 可 以 存储 在 数据 库 中 ， 能 够 被 进一步 的 访问 和 处 理 。 图 11. 8 解释 了 这 种 
思想 。 

另外 一 个 有 趣 的 策略 是 在 计算 机 视觉 算法 外 实施 硬件 资源 的 管理 。 虽 然 这 个 途 
径 需要 在 实现 步骤 中 进行 更 多 的 努力 ， 它 最 主要 的 优点 是 硬件 管理 和 计算 机 视觉 任 
务 之 间 的 相互 独立 ， 以 及 公共 调用 接口 所 要 求 的 算法 互 换 性 。Glasl 等 人 中 应 用 这 
种 方法 从 一 个 实时 方案 中 获取 了 交通 数据 参数 。 

当 硬 件 结构 中 包括 许多 处 理 单元 ， 就 有 可 能 像 计 算 机 那样 进行 处 理 。 在 这 样 的 
结构 中 ， 处 理 吉 由 许多 处 理 单元 组 成 ， 每 一 个 处 理 单 元 拥有 有 限 的 内 存 和 算法 逻辑 
单元 。 提 取 图 像 中 的 数据 后 ， 一 个 输入 /输出 单元 把 数据 转 为 并 行 ， 存 储 在 缓存 中 。 
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图 11.8 可 运行 图 像 处 理 算法 的 般 入 式 平台 架构 














通过 每 一 个 处 理 单元 可 以 访问 这 个 缓存 。 图 11. 9 描述 了 这 样 的 结构 。 这 样 的 一 个 


应 用 是 最 近 由 Medeiros 等 人 ”提出 的 。 对 于 行人 的 跟踪 ， 他们 在 SIMD 处 理 器 上 


应 用 了 粒子 滤波 器 ， 它 是 基于 对 一 个 直方 图 的 计算 ， 且 在 不 同 的 处 理 单 元 中 以 并 行 
方式 实现 。 














图 11.9 许多 处 理 单 元 组 成 的 硬件 结构 


最 后 ， 考 虑 到 专用 软件 的 优化 ， 可 通过 3 个 最 主要 的 步骤 : 基于 编译 器 的 优 
化 ; 基于 系统 的 优化 ; 汇编 级 的 优化 。 基 于 编译 带 的 优化 试图 使 速度 最 大 化 ， 同 时 
探索 结构 特征 (例如 矢量 化 ， 流 水 线 ) 和 编译 功能 。 通 过 合理 划分 存储 器 和 正确 
的 数据 流 可 以 在 系统 级 得 到 优化 。 最 终 的 优化 是 由 汇编 语言 实现 的 。 








11.3.2 PTZ 摄像 机 

最 近 几 年 ， 使 用 具有 云 台 (PAN-TLIT) 和 缩放 功能 的 摄像 机 ， 所 谓 的 PTZ 摄 
像 机 ， 逐 渐 吸 引 了 研究 人 员 的 注意 力 。 尤 其 在 视频 监视 方案 里 ， 这 种 摄像 机 由 于 变 
焦 功 能 而 得 到 关注 。 通 过 这 种 变焦 功能 ，PTZ 摄像 机 也 用 于 观察 特殊 物体 的 踪迹 。 
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一 套 预 定 规则 在 PTZ 摄像 机 的 视 
墅 聚焦 于 特殊 物体 的 过 程 中 发 挥 
作用 。 可 以 说 ， 使 用 PTZ 摄像 机 
的 追踪 过 程 可 简单 说 明 如 下 : 摄 
像 机 启动 获取 过 程 ， 系 统 执行 跟 
踪 9。 许 多 物体 可 以 被 同步 跟踪 。 
而 后 ，PTZ 摄像 机 跟踪 物体 直到 遇 
到 一 个 特别 的 判断 准则 (例如 ， 
被 跟踪 物体 停 下 来 超过 了 一 定 的 
时 间 ) 或 者 物体 运动 到 摄像 机 视 
时 以 外 。 图 11. 10 总 结 了 这 一 过 
程 。 图 11. 11 显示 了 用 PTZ 摄像 机 
的 变焦 功能 跟踪 一 个 人 的 例子 。 

Kang 等 人 29] 提出 了 用 PTZ 摄 
像 机 进行 背景 建 模 和 物体 跟踪 系 
统 。 最 近 ，Evert 等 人 17 提出 了 一 
个 框架 ， 多 个 PTZ 摄像 机 用 于 物 
体 跟 踪 。 在 第 15 章 也 可 找到 PTZ 
摄像 机 的 应 用 。 




















释放 PTZ 





























”摄像 机 移动 :向 旋转 及 变焦 。 


| TPTZ 摄 像 机 





图 11.11 PTZ 摄像 机 局 部 放大 被 追踪 的 行人 


图 11. 10 PTZ 摄像 机 跟踪 的 算法 流 
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11.3.3 多 摄像 机 系统 


在 多 摄像 机 系统 中 ， 一 个 重要 的 挑战 是 系统 中 目标 的 关联 ， 尤 其 是 不 同 摄像 
机 中 的 目标 关联 。 对 于 视野 重生 的 摄像 机 ， 可 以 使 用 几何 学 来 融合 不 同 的 物 
体位 置 。Kang 等 人 29 联合 了 位 置 和 PTZ 的 重 到 视图。 为 了 有 目的 地 跟踪 ， 作 者 
用 了 两 种 可 能 的 模式 : 外 观 模式 用 于 描述 物体 ， 运 动 模式 是 从 Kalman 滤波 器 中 
提取 的 。 

在 许多 情况 下 需要 监控 大 量 的 区 域 ,不 可 能 使 用 重合 的 摄像 机 视图 来 对 空间 
物体 进行 观察 。 在 这 种 方式 下 ,跟踪 方案 必须 对 图 像 的 几何 特征 做 一 些 假设 
(例如 ， 通 过 使 用 不 同 摄像 视图 的 入 口 和 出 口 点 信息 2 ) ， 路 径 紧 随 物体 或 者 物 
Made 092529) 。 通 过 增加 一 个 运动 模式 ，Pflugfelder 和 Bischof 成 功 地 在 摄像 
机 中 捕获 到 人 的 踪迹 ， 准 确 度 很 高 "2 ， 并 且 在 2m 以 外 的 位 置 。Javed AP?! 
使 用 外 观 模式 在 一 个 开放 的 环境 中 对 人 进行 跟踪 。Cevher A! A TOK AE 
频 和 视频 传感器 的 信息 ， 使 用 了 颗粒 滤波 跟踪 的 方式 。Gilbert 和 Bowden 提出 了 
一 种 使 用 跟踪 不 重 琶 的 跨越 空间 的 物体 跟踪 方法 ,包括 识别 空间 连接 和 色彩 关 
AM 。 由 于 增加 了 对 物体 运动 和 颜色 变化 的 研究 ， 从 而 可 以 提高 跟踪 轨迹 的 准 
确 度 。 

Siebel 等 人 “在 ADVISOR 监视 系统 中 也 对 多 摄像 机 跟踪 和 行人 在 画面 中 的 迁 
移 切 换 等 问题 进行 了 处 理 。 有 一 个 相近 的 方案 ， 就 是 Fleck 等 人 1" 提出 的 一 个 由 
智能 摄像 机 组 成 的 系统 ， 这 些 智能 摄像 机 能 够 实时 地 处 理 人 的 轨迹 。 

第 13 章 和 第 17 章 给 出 了 多 摄像 机 处 理 系统 的 细节 和 实例 。 























11.4 物体 跟踪 的 性 能 评估 


评价 任何 计算 机 视觉 算法 时 (特定 情况 下 的 轨迹 跟踪 算法 )， 可 基于 通用 的 误 
差 准 则 比较 多 个 相关 算法 的 结果 与 真实 结果 之 间 的 误差 。 这 种 误差 准则 较为 直观 且 
易于 表示 ， 也 易于 评价 算法 等 级 。 在 评估 算法 后 ， 应 该 评估 跟踪 器 在 不 同情 况 下 的 
响应 。 通 常 ， 追 踪 算 法 在 无 攻 义 的 情况 下 产生 良好 的 响应 ， 例 如 ， 当 两 个 人 没有 重 
车 位 置 或 者 没有 重合 轨迹 地 穿 过 同一 个 视野 。 但 是 ， 在 歧义 情况 下 (如 行人 相互 
遮挡 ， 照 明 条 件 不 稳定 ， 拥 挤 的 场景 ， 非 静态 摄像 机 ,或 目标 类 似 ) ， 对 追踪 系统 
稳定 性 的 评价 更 显得 困难 却 更 有 意义 。 

Pu, 我们 给 出 对 一 般 计算 机 视觉 算法 和 特定 轨迹 跟踪 算法 进行 评估 的 基本 























172 智能 摄像 机 





11.4.1 评估 框架 


最 常用 的 计算 机 视觉 算法 评估 框架 是 雷 丁 大 学 的 在 线 PETS 测评 服务 9?， 它 基 
于 不 同 的 数据 集 和 一 组 预定 义 的 准则 ， 对 视觉 监控 算法 进行 在 线 评估 。 虽 然 关 于 运 
动 分 割 的 准则 已 经 得 到 运用 ,但 是 希望 关于 物体 跟踪 的 准则 也 尽快 得 到 用 。 通 过 利 
JH PETS 站 点 ， 用 户 可 以 通过 一 个 用 户 接 口 提交 他 们 的 结果 ， 利 用 预定 义 的 准则 进 
行 评估 。 虽 然 这 个 服务 只 适合 于 部 分 视觉 监控 算法 的 评估 ， 尤 其 是 目标 检测 和 目标 
分 割 ， 但 也 可 用 在 其 他 应 用 领域 。 这 个 服务 的 一 个 主要 优势 是 每 一 位 用 户 可 以 独立 
于 所 使 用 的 平台 提交 他 们 的 结果 。 另 一 方面 ， 其 主要 缺点 是 仅仅 需要 提交 包含 算法 
结果 的 文本 文件 ， 而 没有 考虑 到 计算 时 间 。 

另 一 个 基于 网 络 的 评估 框架 是 VIVID7 ， 它 可 以 分 析 一 系列 可 用 数据 集 ， 并 可 以 
上 传 结 果 ， 网 站 界面 显示 和 原来 提交 的 结果 一 起 打分 的 排名 情况 。 假 如 所 提供 数据 集 涵 
盖 了 不 同 的 情况 ， 如 各 种 分 辨 率 、 对 比 度 的 变化 以 及 遮挡 程度 ， 视 频 的 记录 是 通过 使 用 
普通 摄像 机 以 及 红外 摄像 机 完成 的 。 测 试 软件 使 用 五 种 标准 评估 提交 上 来 的 结果 。 

Smith 等 人 [13] 为 评估 跟踪 结果 提出 了 一 种 框架 。 作 者 致力 于 多 目标 跟踪 ,他 
们 定义 了 一 些 特定 的 方法 来 评估 他 们 的 发 现 。 

视频 和 分 析 内 容 的 提取 (Video and Analysis Content Extraction, VACE) 计划 致 
力 于 开发 新 算法 、 实 现 自动 视频 内 容 提取 、 多 模 态 融合 、 事 件 理解 |。 通过 这 个 
过 程 也 对 算法 进行 了 性 能 评 佑 ， 产 生 了 标准 的 数据 ， 定 义 了 多 种 多 样 的 衡量 标准 。 
Manohar 对 PETS 和 VACE 框架 进行 了 有 意义 的 对 比 ]。 

为 了 对 视频 监控 系统 进行 性 能 评估 ， 法 国 国家 信息 与 自动 化 研究 所 和 法 国政 府 
发 起 了 ETISEO 工程 ， 其 目标 是 研究 场景 刻画 和 算法 的 特征 关系 。 参 与 人 员 用 预定 
义 指 标 评估 他 们 提交 的 结果 ， 并 匿名 发 表 这 些 评估 结果 。ETISEO 中 的 跟踪 评估 主 
要 适用 于 多 目标 跟踪 的 评估 。 

Bashir 和 Porikli ^ 提出 了 另 一 种 目标 跟踪 系统 的 科学 方法 。 为 了 对 多 目标 跟踪 
结果 进行 评价 ， 作 者 提出 了 一 种 基于 统计 描述 的 无 偏 度量 。 

考虑 到 乱入 式 硬件 ，Van Der Wal 7 | 提出 了 在 并 行 流水 线 结构 中 评估 实时 视频 
算法 的 框架 ， 并 报告 了 基于 FPGA 和 5 个 摄像 机 数据 融合 的 评价 结果 。 

最 近 ，Kasturi 等 人 M1 为 视频 应 用 中 的 目标 检测 和 跟踪 的 评估 提出 了 一 种 框架 。 
这 个 框架 包含 许多 资源 ， 诸 如 真实 视频 数据 ， 标 准 视频 数据 本 身 ， 评 估 度 量 方法 和 
一 个 软件 工具 。 

最 后 ， 提 一 下 CAVIAR 工程 "是 很 必要 的 ， 由 于 在 此 工程 中 许多 基准 数据 集 

































































© 跟踪 和 监控 的 性 能 评估 , 2005 年 由 英国 Reading 大 学 在 线 评估 服务 提供 。http: // 
www. cvg. cs. rdg. ac. uk/cgibin/PETSMTRICS/ page. cgi? home 
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是 有 注解 的 ， 且 对 公众 开放 。 虽 然 没 有 给 出 评估 框架 ,但 是 注释 数据 集 涵 益 了 许多 
不 同 环境 下 的 不 同情 况 ， 视 频 序列 由 单一 的 或 者 是 多 个 摄像 机 记录 ， 为 算法 的 评估 
提供 了 真实 的 数据 。 不 同形 式 的 遮挡 、 目 标 消失 和 重 现 是 场景 注释 的 难点 。 


11.4.2 标准 


通常 来 说 ,评估 标准 基于 TP (ELBA), FP (RI), TN ( 真 阴 ) 和 FN (fe 
BA) 的 出 现 次 数 ， 与 目标 在 场景 中 出 现 的 总 次 数 或 被 检 出 的 次 数 有 关 。 其 定义 
如 下 : 

D 当 算 法 报告 为 阳性 结果 ， 且 目标 真实 存在 时 ， 计 为 真 阳 。 

O 当 算 法 报告 为 阴性 结果 ， 且 目标 确实 不 存在 时 ， 计 为 真 阴 。 

O 当 算 法 报告 为 阳性 结果 ,但 目标 并 未 存在 ， 计 为 假 阳 。( 虚 警 ) 

D 当 算法 报告 为 阴性 结果 ， 但 目标 真实 存在 时 ， 计 为 假 阴 。( 漏 报 ) 

最 常用 于 评价 分 析 目 标 跟 踪 算 法 的 标准 应 该 是 由 black AL EK ; 

跟踪 器 检 出 率 : TRDR = TP,/(TP, + FN,) ; 

WEAK. FAR = FP,/(TP, +FP,); 

追踪 检 出 率 : TDR =TP,/(TP, + FN,) ; 

追踪 碎片 : TF =# 目 标 地 址 的 变化 。 

在 这 里 ， 下 标 “t” 对 应 被 跟踪 的 目标 ， 下 标 “o” 表 示 目 标 出 现 的 总 次 数 。 
前 两 个 指标 ，TRDR 和 FAR 表示 的 是 跟踪 系统 的 性 能 。TDR 决定 了 真实 目标 被 检 
出 的 完备 性 。 最 后 ，TF 决定 了 目标 标记 的 改变 次 数 ， 能 够 反映 出 系统 在 跟踪 过 程 
中 连续 性 的 好 坏 与 否 。 通 常 也 用 “路 径 一 致 性 ”来 衡量 跟踪 过 程 中 的 连续 性 。“ 颜 
色 一 致 ”用 于 估计 跟踪 直方 图 的 一 致 性 ， 并 且 “ 形 状 的 一 致 性 ”表现 了 被 跟踪 目 
标 位 置 的 精确 性 。 

Collins 等 人 聚焦 于 跟踪 系统 的 稳定 性 和 精确 性 上 ， 定 义 了 如 下 的 准则 ; 

跟踪 丢失 : 如 果 边 框 与 实际 目标 的 轮廓 根本 不 吻合 ， 就 认为 这 个 目标 丢失 了 。 
首次 出 现 这 种 情况 就 不 再 继续 进行 评价 。 也 就 意味 着 我 们 不 允许 跟踪 系统 重新 获取 
目标 。 

跟踪 的 稳定 性 : 被 跟踪 目标 出 现 的 百分比 ， 即 在 目标 消失 前 含有 目标 的 帧 数 与 
总 帧 数 的 比值 。 

跟踪 精度 机 : 跟踪 精度 是 由 边框 的 平均 (按时 间 ) TREE TE MY, EAR 
是 数据 集中 的 被 跟踪 部 分 与 标准 边框 区 域 的 比值 ， 因 此 ，100% 精度 意味 着 完全 
EA, 

REREN. CHG pil Ei [58 SK HE A SR AEE, toc, 
TE fU ERS KY a, FPS, IXOBPUUEEDUEGKOS ER 
准 图 像 和 被 跟踪 目标 进行 简单 的 分 割 。 公 式 为 : Score =TP/ (TP +FP+FN)。 

IRERE.: 在 这 里 ， 基 于 标准 数据 的 二 值 掩 膜 ， 得 出 按时 间 平 均 的 转换 距 
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离 。 被 跟踪 目标 的 掩 膜 用 于 在 距离 变换 空间 中 计算 像素 自 适应 的 距离 。 在 这 种 情况 
下 ， 要 求 进行 形状 分 割 ， 而 不 采用 边框 。 

史密斯 等 全 1 定义 评估 框架 中 的 指标 如 下 : 

(D 多 重 跟踪 系统 (MT): 数 个 跟踪 系统 监控 同一 场景 。 

© 多 重 目 标 (MO); 两 个 或 更 多 的 场景 目标 被 同一 系统 监控 。 

(3) CD; 实际 被 跟踪 的 目标 数 和 正则 化 后 真实 存在 的 轨迹 数量 之 间 的 差 值 。 

@ 误 识 别 的 跟踪 器 (FIT): 在 这 种 情况 下 ， 标 准 数据 的 ID 正确， 而 跟踪 器 的 
ID 不 正确 。 

© 误 识 别 的 目标 (FIO) : 这 个 指标 测度 跟踪 系统 发 生 交换 标准 数据 的 情况 。 

MT, MO, AI CD 与 跟踪 的 鲁 棒 性 和 一 致 性 有 关 ， 而 后 两 个 概念 反映 了 ID 分 布 
的 错误 。 

ETISEO 1 使 用 的 定义 如 下 : 

(D WHERE, ETISO 定义 了 4 种 边框 的 度量 标准 。 其 中 3 种 比较 复杂 ， 只 有 
一 种 类 似 被 VIVID 定义 的 比较 简洁 : 占 标准 边界 框 的 百分比 。 

O 轨迹 丢失 : 如 果 目 标的 边界 框 与 真实 边界 框 交 区域 低 于 用 户 定义 的 门限 ， 
那么 认定 这 个 轨迹 丢失 。 

© 跟踪 精度 所 : ETISEO 给 出 了 几 种 方法 来 评估 连续 两 个 时 间 段 内 的 两 个 目标 
之 间 关 联 是 否 一 致 。 

一 精度 : 正确 的 关联 次 数 / 总 的 关联 次 数 

一 灵敏 度 : 正确 的 关联 次 数 /真实 数据 中 存在 的 目标 关联 次 数 

一 F-Score: 2 x 精度 x 敏感 度 / (精度 + RBE), 

(4) 跟踪 时 间 : 这 个 概念 和 VIVID 的 稳定 性 概念 是 一 致 的 。 它 反映 了 真实 数据 
中 的 目标 生存 期 ， 是 追踪 过 程 中 目标 所 在 帧 的 累计 数 。 

但 是 在 嵌入 式 系统 中 ， 计 算 时 间 仍 然 是 个 很 关键 的 因素 。 关 于 执行 时 间 ， 基 于 
CIF 分 辨 率 (352 x288 像素 ) Arth 报告 了 中 使 用 kalman 滤波 跟踪 器 的 结果 ， 运 
行 速 度 为 0.346 毫秒 /每 帧 。 其 中 ， 仍 然 使 用 浮 点 数 ， 并 未 经 过 优化 。 作 者 指出 ， 
可 以 通过 采用 代码 优化 技术 来 改进 它 。Clasl 等 由 采用 和 鲁 棱 变异 3] 的 Lucas-Ka- 
nade 模板 匹配 算法 ! 胖 达到 了 25fps 的 处 理性 能 。 采 用 Black 等 人 开发 的 标准 对 该 
算法 评价 的 结果 列 在 表 11.2。 其 中 “GT” 列 是 真实 车 辆 计数 ,“T+” 列 是 能 正确 
检测 出 的 车 辆 数 ，F+/min 列表 示 每 分 钟 假 阳 ( 误 检 或 虚假 ) 的 百分比 。 


表 11.2 Beppe! 
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由 Khalegi 等 人 开发 的 舱 入 式 系统 在 QQVGA 分 辨 率 下 (160 x120 RA) 进行 
立体 匹配 ， 其 性 能 达到 了 30fps。Medeios 等 人 5971 报告 了 并 行 实现 粒子 滤波 算法 的 
重要 结果 。 采 用 100 个 粒子 和 16 x 16 的 窗口 或 者 60 个 粒子 和 30 x 30 的 窗口 都 可 
以 把 运算 时 间 降 低 3 倍 。 表 11.3 比较 了 它们 的 执行 时 间 。 另 一 方面 ， 利 用 基于 事 
件 的 DVS 版 本 传感器 实现 目标 追踪 时 ， 在 具有 USB 摄像 机 接口 的 PC 机 上 运行 相 
应 算法 ， 等 效 帧 率 可 达 500 ~2000Hz， 这 时 CPU 的 负荷 低 于 20% 7? 1. 


表 11.3 不 同 平台 及 应 用 的 目标 跟踪 评估 (“/” 表 示 无 法 获取 数据 ) 



































参考 文献 跟踪 方法 准确 度 /像素 性 能 / (fp/s) 
Fleck 等 人 [78] 粒子 滤波 器 / 15 
Arth A?) Ag ak at 352 x288 25 
Schlessman 4& A (11 Lucas- Kanade 算法 / 18 
Khalegi 等 人 [236] 卡尔 曼 滤 波 器 160 x 120 30 
Glas] 等 人 124] {FEH Lucas- Kanade 算法 352 x288 25 
Medeiros 4& A 371] 粒子 滤波 器 / 25 











11.5 面临 的 挑战 


尽管 有 许多 方法 ， 目 标 检测 跟踪 仍然 面临 着 许多 挑战 ， 尤 其 是 在 现实 场景 下 。 
许多 方法 都 被 设计 成 在 特定 的 环境 下 跟踪 检测 单独 的 目标 。 事 实 上 ， 这 满足 不 了 真 
实 世界 中 普遍 存在 的 多 个 目标 同时 出 现在 场景 中 的 情况 。 在 后 一 个 问题 中 ， 影 响 跟 
踪 性 能 的 主要 问题 是 遮挡 问题 。 尤 其 是 一 个 拥挤 的 场景 中 ， 多 目标 的 遮挡 和 交互 影 
响 ， 仍 然 是 基于 视觉 的 目标 跟踪 系统 未 解决 的 问题 。 

男 一 个 挑战 和 骨 入 式 硬件 有 关 。 典 型 地 ， 由 于 在 租 入 式 系 统 中 的 资源 被 限制 ， 
所 以 为 了 满足 目标 跟踪 过 程 的 要 求 ， 总 要 求人 们 不 断 地 优化 改进 人 硬件 和 软件 。 在 茶 
些 方法 中 涉及 矩阵 操作 ( 乘 和 求 逆 )， 由 于 重 棒 的 跟踪 需要 使 用 数量 巨大 的 浮 点 数 
操作 ， 使 得 舱 入 式 硬 件 平台 的 能 量 趋 于 饱和 。 因 此 ， 精 度 和 增益 也 是 需要 考虑 。 

一 旦 使 用 多 摄像 机 系统 ， 信 息 流 的 总 量 就 会 成 为 关键 因素 。 在 使 用 多 摄像 机 跟 
踪 相 同 目标 的 时 候 ， 为 了 增加 整个 系统 的 鲁 棒 性 和 精确 性 ， 人 允许 摄像 机 调用 其 他 节 
点 的 信息 是 非常 必要 的 。 


11.6 结论 和 发 展 趋势 
目标 跟踪 在 计算 机 视觉 中 是 一 个 广泛 的 可 探索 领域 ， 并 且 要 求 使 用 智能 摄像 机 


系统 越 来 越 多 。 这 一 章 描 述 了 目标 跟踪 的 现状 ， 并 将 重点 集中 在 戏 人 式 平台 上 ， 由 
于 可 利用 的 资源 有 限 ， 所 以 计算 机 视觉 技术 仍 面临 挑战 。 需 要 改进 的 方面 包括 信号 
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处 理 和 图 像 处 理 系统 ， 典 型 的 例子 是 人 脸 检 测 系统 ， 声 音 识 别 以 及 语音 压缩 等 。 

尽管 近年 来 许多 算法 被 提 及 和 开发 ， 仍 有 许多 未 解决 的 问题 。 不 断 地 需要 研究 
的 领域 主要 是 : 资源 受 限 的 藤 入 式 平台 和 重 棒 的 多 摄像 机 跟踪 系统 的 开发 。 刻 画 知 
能 摄像 机 应 用 的 要 求 是 实时 性 、 计 算 强 度 、 软 硬件 的 相互 影响 等 。 多 处 理 絮 可 以 解 
决 执行 时 间 问 题 。 对 于 特定 情节 ， 场 景 的 变化 非常 普遍 。 因 此 ， 智 能 摄像 机 必须 对 
这 种 情况 产生 响应 。 此 外 ， 不 同类 型 传 感 絮 对 同一 场景 的 反应 通常 是 不 同 的 。 这 
样 ， 不 同 传感器 的 集成 〈 多 传感器 系统 ) 及 它们 的 数据 融合 (多 数据 融合 ) "D 
加 跟踪 的 检 出 率 并 且 降 低 虚 警 率 。 

具有 焦 平 面 处 理 功 能 和 在 片 移动 检测 的 新 型 传感器 〈 如 DVS) 是 能 和 人 式 平台 
上 的 一 种 实时 解决 方案 。 低 速率 数据 AMAER) 和 宽 动 态 范围 允许 实时 高 
效 的 目标 追踪 ， 并 不 需要 人 眼 可 直观 识别 的 图 像 。 
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12.1 从 环境 智能 到 协同 智能 摄像 机 网 络 


环境 智能 由 电子 设备 环境 构成 ， 能 感知 人 的 现场 行为 并 做 出 响应 。 环 境 智能 是 
一 个 充满 活力 的 研究 领域 ， 它 能 推动 相关 技术 和 应 用 的 发 展 ， 目 前 主要 应 用 在 对 场 
景 监控 和 人 员 监 探 中 。 作 为 一 种 非 侵入 性 技术 ， 成 像 技术 在 移动 传 感 设备 中 起 着 重 
要 的 作用 。 例 如 ， 成 像 技术 通过 计算 机 视觉 备份 并 用 于 人 物 检 测 和 行为 识别 ， 比 如 
疾病 和 骚乱 。 

在 单 摄像 头 和 多 摄像 头 装置 中 ， 智 能 摄像 机 都 发 挥 着 重要 的 作用 5” 。 智 能 
摄像 机 是 将 视觉 计算 模块 和 图 像 传感器 紧 紧 向 入 到 同一 壳 体 的 摄像 机 。 为 了 降低 成 
本 在 摄像 机 壳 体 中 进行 视觉 计算 而 不 是 在 PC 机 或 服务 器 上 。 从 系统 的 角度 来 看 ， 
拥有 智能 摄像 机 的 成 本 远 小 于 基于 PC 的 解决 方案 。 近 年 来 智能 视觉 监控 的 发 展 显 
然 说 明了 这 一 点 。 将 视觉 处 理 直 接 与 传感器 结合 的 另 一 个 原因 是 短 距 离 无 线 通 信 的 
功 耗 要 求 。 这 是 由 于 缩减 了 场景 分 析 ( 读 取 语义 数据 压缩 ) 功 耗 相对 于 广播 信息 
能 量 的 比例 。 在 前 者 遵循 摩尔 定律 同时 ， 后 者 由 于 存在 热 噪声 被 限制 在 信息 传输 的 
下 边界 。 

从 参考 文献 [575, 576] 可 以 看 出 ， 与 一 般 观 点 相反 ， 智 能 摄像 机 的 〈 红 入 
式 ) 成 像 性 能 并 不 一 定 远 远 落后 于 通用 的 高 级 PC。 原 因 很 简单 ， 因 为 智能 摄像 机 
处 理 器 专用 于 图 像 处 理 ， 从 而 性 能 更 好 ， 功 率 效率 更 高 。 相 反 ， 基 于 PC (或 基于 
通用 处 理 器 ) 的 解决 方案 并 没有 对 视觉 任务 中 的 典型 数据 流 进行 优化 。 

过 去 十 年 ，CMOS 成 像 带 在 手机 中 被 广泛 地 使 用 ， 从 而 使 得 图 像 传 感 带 变 得 便 
宜 实 用 。 另 外 ，IC 技术 在 有 限 能 耗 下 拥有 足够 高 的 性 能 ， 无 线 网 络 和 连接 技术 在 
过 去 20 年 也 愈加 成 熟 ， 这 些 都 有 助 于 智能 摄像 机 的 实现 。 

目前 为 止 计算 机 视觉 只 应 用 于 工业 环境 中 。 为 了 降低 系统 成 本 ， 避 免 网 络 过 
载 ， 并 确保 易 用 性 ， 将 计算 机 视觉 应 用 在 智能 摄像 机 中 。 显 然 ， 将 智能 摄像 机 网 络 
应 用 在 办 公 消 费 领域 的 时 机 已 经 成 熟 。 

摄像 机 网 络 以 网 络 摄像 机 (IP camera) 的 形式 被 人 们 所 熟知 。 然 而 ， 该 系统 
仅仅 增加 了 传输 层 ， 用 于 视频 压缩 和 网 络 传输 。 并 没有 充分 利用 监控 同一 场景 的 摄 
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像 机 形成 的 网 络 所 提供 的 优势 利益 。 

三 维 场景 的 二 维 投影 是 视觉 技术 领域 的 挑战 性 问题 ， 试 图 采用 单 摄像 机 视觉 技 
术 来 解决 这 一 问题 是 一 项 困难 的 任务 。 该 技术 具有 竞争 优势 ， 当 其 应 用 于 工业 领域 
时 ， 可 以 针对 有 人 的 场景 分 析 问 题 。 可 以 从 足够 多 的 角度 观察 场景 ， 获 得 真实 的 三 
维 外 观 模 型 ， 从 而 解决 了 模糊 性 和 谈 挡 问题 。 其 至 在 简单 情况 下 ， 如 多 台 摄 像 机 从 
类 似 的 方向 获得 目标 ,通过 这 种 立体 纵深 的 观察 也 会 得 到 和 鲁 棒 性 结果 。 

所 有 的 视频 资源 (如 果 性 能 允许 ) 可 以 合并 到 一 个 单一 的 计算 引擎 。 但 从 成 
本 的 角度 考虑 ， 在 网 络 中 使 用 骨 入 式 计 算 的 智能 摄像 机 是 一 个 更 好 的 选择 。 这 将 为 
协同 摄像 机 领域 打开 新 和 视野。 摄像 机 将 通过 视觉 算 法 解决 特定 的 任务 。 虽 然 分 布 式 
人 处理 有 很 大 的 挑战 ,但 是 研究 表明 摄像 机 网 络 更 具有 苋 争 力 、 更 可 靠 并 且 更 具有 低 
功 耗 。 





























12.2 ”本 领域 的 研究 目标 





学 术 / 工 程 研究 关注 不 够 成 熟 但 市 场 前 景 良好 的 领域 。“ 协 同 智能 摄像 机 网 络 ” 
就 符合 这 些 特点 。 此 外 ， 它 是 一 个 系统 而 不 是 终端 产品 ， 所 以 很 多 中 间 结 果 会 衍生 
出 反馈 ， 收 益 和 激励 。 要 使 摄像 机 网 络 达到 实用 程度 ， 集 中 研究 以 下 几 个 方面 ; 

CD 实时 计算 机 视觉 是 研究 的 主要 部 分 。 智 能 摄像 机 实现 了 实时 处 理 ， 但 结果 
有 重 棒 性 要 求 ， 因 此 需要 视觉 算法 研究 和 视觉 方法 研究 。 

O 协同 视觉 是 一 个 新 领域 。 该 领域 的 视觉 任务 由 摄像 机 协同 解决 ， 并 且 对 同 
一 场景 进行 多 方向 分 析 。 网 络 作为 一 个 系统 。 已 经 提出 了 一 些 研究 系统 的 方法 ， 但 
目前 还 未 透明 ， 这 是 必要 的 ， 以 方便 未 来 发 展 。 

© 分 布 式 处 理 是 协同 视觉 的 处 理 层 。 它 给 用 户 显示 软 硬 件 环境 用 于 设计 协作 
任务 。 这 里 的 关键 词 是 网 络 体系 ， 同 步 ， 服 务 质量 ， 负 载 均衡 以 及 功 耗 等 。 

D 摄像 机 的 硬件 开发 。 智 能 摄像 机 正在 沿 着 小 型 化 的 路 线 发 展 。 要 达到 这 点 ， 
必须 发 展 技术 ， 从 而 改善 视觉 性 能 、 降 低 功 耗 和 零售 价 。 

© 为 了 提高 结果 的 可 靠 性 ， 并 使 系统 更 加 适用 于 不 同 环境 ,需要 与 其 他 传 感 
器 网 络 进行 数据 融合 。 这 意味 着 需要 研究 如 何 将 视觉 信息 与 传感器 网 络 数据 进行 融 
合 ， 这 些 数据 来 自 运动 、 信 息 、 压 力 、 温 度 、 声 音 以 及 光 传感器 。 
































12.3 无 线 摄像 机 必须 智能 化 





由 电池 供电 的 视频 处 理 装置 很 难 实 现 低 功 耗 和 高 性 能 。 通 过 广播 原始 视频 数据 
可 以 将 该 功能 转移 到 一 个 由 电源 供电 的 PC。 然而， 对 于 数字 化 15fp/s 灰 度 级 的 
VGA 无 线 链 路 来 计 ， 需 要 大 约 400mW 的 功率 。 知 将 现场 视频 从 摄像 机 连续 广播 到 
PC 计算 引擎 ， 和 用 于 现场 分 析 的 计算 操作 相 比 ， 前 者 将 消耗 更 多 的 摄像 机 电源 能 
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Eo 事实 上 ， 短 距离 传输 耗 散 的 广播 


4b E 


HE 里 


中 大 部 分 耗 散 在 发 射 器 的 D- A 转换 器 
上 5531。 由 图 12. 1 中 可 知 。 蓝 牙 发 射 器 发 射 单位 比特 的 电子 所 消耗 的 150nJ 中 只 
1nJ 消耗 在 实际 传输 中 。 
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处 理发 送信 号 时 每 bit 所 需 能 量 













通信 连接 时 每 bit 所 需 能 量 
EL/(nJ/bit) 
蓝牙 150 
GSM(0.2 Watt) | 500~1000 |2500 
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Raf Roovers 

E 离 和 中 距离 传输 系统 的 能 量 消 耗 。 由 表 中 的 数据 可 
以 看 出 : 在 短 距离 传输 标准 ( 蓝牙) 中 ， 大 部 分 的 能 量 都 消耗 在 
电子 发 射 中 而 不 是 无 线 传输 中 人 




















于 功 耗 线 。 


D- A 转换 带 非 常 接近 由 其 实际 的 热 品 声 决定 的 最 小 功 限 。 几 种 现代 短 距离 传 
输 系 统 ， 如 Zigbee ，PicoRadio 的 分 布 可 以 说 明 这 点 。 图 12. 2 中 这 几 种 分 布 均 略 高 







功率 
大 范围 通信 | 
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100m 
组 间 通 信 10m 
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PicgRadio 每 比特 功率 不 随 数据 速率 
着 摩尔 定律 攀升 
100k 


10M 100M 
1 
~ 传感器 ~ 语 , 音频 ， hifi 


~ 活动 图 像 
图 12.2 短 距离 传输 系统 的 固定 单位 比特 能 


PRE EZ 
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由 。 注 意 到 所 有 的 现代 短 
E 离 无 线 通信 标准 都 分 散在 略 高 于 线性 功 耗 线 的 地 方 。 
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然而 ， 使 用 电压 调节 技术 ， 计 算 延 迟 ， 和 低能 量 架构 等 技术 ， 可 以 继续 减 小 硅 
的 功 耗 。 到 达 硅 的 本 征 最 小 值 之 前 ， 功 耗 可 以 进一步 减 小 i。 图 12. 3 清晰 地 表 
明 ， 根 据 硅 类 DSP 单位 功率 内 执行 的 百 万 次 操作 数 评估 它 的 性 能 。 随 着 x 轴 上 工 
艺 节 点 的 发 展 ， 该 曲线 继续 增长 。 从 图 中 也 可 以 看 出 通用 顺序 处 理 器 (Pentium ) 
和 专用 并 行 处 理 器 (Xetal) 的 明显 区 别 ”” ， 专 用 并 行 处 理 器 的 衍生 工具 已 经 应 用 
在 智能 摄像 机 中 。 
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图 12.3 ”对 不 同 的 技术 节点 ， 每 秒 每 瓦特 执行 百 万 次 操作 数 时 
增加 的 硅 效 率 。 浅 色 线 表示 标准 (顺序 ) 处 理 器 的 位 置 ， 深 色 
线 所 示 为 专用 硅 解决 方案 的 固有 性 能 "”1。“Xetal” 是 一 种 矢量 
SIMD 处 理 器 ， 并 且 应 用 在 摄像 机 平台 上 












































无 线 传输 越 接近 其 能 效 限 ，VLSI (超大 规模 集成 电路 ) 计算 将 越 经 济 。 要 想 
单位 功率 提供 更 好 的 系统 性 能 ， 就 需要 依 徘 并 行 数据 级 和 1IC 技术 的 进步 来 开发 解 
决 方案 ” 。 因 此 我 们 需要 发 展 摄像 机 的 自身 计算 ,并且 只 将 事件 检测 发 送 给 中 央 
主机 或 相关 环境 中 的 其 他 摄像 机 。 








12.4 用 于 高 效 图 像 处 理 的 专用 硬件 内 核 


集成 技术 的 发 展 ， 实 现 了 在 编程 平台 上 的 实时 图 像 处 理 ( 低 成 本 和 低 功 
FE) 720591 。 视 觉 方法 和 应 用 的 不 断 更 新 ， 使 得 平台 可 编程 变 得 非常 重要 。 我 
们 提出 ， 在 智能 摄像 机 结构 中 要 包含 两 种 类 型 的 可 编程 处 理 器 ， 分 别 是 大 规模 并 行 
SIMD 处 理 器 和 通用 DSP (一 个 或 多 个 ) 8089 

智能 摄像 机 中 的 算法 可 以 分 为 : 低级 、 中 级 和 高 级 任务 。 图 12.4 和 图 12.5 分 
显示 任务 分 类 和 相应 数据 实体 。 

低级 图 像 处 理 是 一 些 典 型 的 内 核 操 作 。 比 如 利用 当前 像素 周围 的 有 限 点 进行 卷 
积 或 数据 相关 操作 。 这 个 部 分 通常 对 像素 分 类 或 是 初始 化 。 每 个 像素 最 终 可 以 按 是 
和 否 为 兴趣 点 分 类 ， 因 此 对 每 个 像素 的 算法 本 质 上 是 相同 的 。 所 以 ， 如 果 该 级 别 需 要 


r1 


J 





= 














182 智能 摄像 机 





更 高 的 性 能 ， 比 如 每 秒 高 达 一 亿 像素 的 操作 ， 有 效 做 法 是 使 用 这 种 固有 的 数据 并 行 
在 时 钟 周期 内 对 更 多 的 像素 进行 操作 。 这 样 的 处 理 占 具有 SIMD ( 单 指令 多 数据 
Wi) 结构 ， 该 结构 中 相同 的 指令 并 行 下 达 给 所 有 的 数据 项 ”1 。 从 功 耗 的 角度 来 
看 ，SIMD 处 理 顺 更 加 经 济 "” 。 并 行 体系 结构 减少 了 内 存 访问 ， 时 钟 频率 和 指令 
译 码 ， 从 而 使 得 运算 性 能 的 功 耗 更 低 “ ”1 。 






目标 处 理 
-形状 分 析 / 边 码 
-分 段 


判决 
联网 


图 12.4 关于 操作 类 型 进行 的 算法 分 类 








- 很 多 像素 : 1~1000M/s 
- 每 像素 进行 相似 的 处 理 


低级 


- 部 分 判决 任务 
高 级 - 复杂 的 处 理 算法 


- 很 多 目标 : 1~300K 目 标 /s 
中 级 








图 12.5 带 有 处 理 特性 的 数据 实体 以 及 通过 并 行 来 
增加 性 能 的 可 能 方式 


图 像 处 理 的 中 高 级 部 分 ， 做 出 决定 并 转发 给 用 户 。 通 用 处 理 器 是 理想 选择 ， 
为 它们 不 仅 能 够 灵活 地 实现 复杂 的 软件 任务 ， 而 且 往 往 能 够 运行 操作 系统 和 网 络 应 
用 程序 。 


12.5 原型 智能 摄像 机 的 硬件 平台 





























学 者 们 在 2008 年 提出 了 可 以 无 线 连接 的 原型 智能 摄像 机 。 其 中 的 一 些 有 望 很 
快 应 用 在 商业 中 。 参 考 文献 [447] 和 参考 文献 [107] 中 可 以 看 到 最 近 的 概述 。 
其 中 绝 大 部 分 摄像 机 都 尚未 能 以 协同 网 络 的 方式 工作 。 而 且 几 乎 所 有 的 摄像 机 都 没 
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有 坚持 使 用 先前 所 述 的 高 效 硬件 内 核 装置 。 相 反 ， 它 们 采用 基于 FPGA 的 高 功 耗 方 
RMA PDA 类 低 功 耗 处 理 器 ， 二 者 都 没有 自主 智能 摄像 机 系统 所 需 的 成 像 性 能 。 

根据 先前 所 述 ， 我 们 开发 的 无 线 智 能 摄像 机 系统 ， 可 以 独立 运行 或 在 摄像 机 网 
络 中 运行 。 该 摄像 机 包括 四 个 基本 组 件 : 一 个 或 两 个 VGA 彩色 图 像 传 感 器 ; 一 个 
用 于 低级 图 像 处 理 的 SIMD 处 理 融 ; 一 个 用 于 中 高 级 处 理 和 控制 的 通用 处 理事 ; 一 
个 通信 模块 。 其 中 的 两 个 处 理 需 均 使 用 双 端 口 RAM， 从 而 使 它们 能 够 以 各 自 的 处 
理 速 度 运行 在 共享 空间 中 见 图 12. 6) 。 


DPRAM 总 线 





mS XE ono 80261 


ies 





EEPROM 总 线 








到 12.6 WiCa 的 完整 结构 ， 显 示 出 了 所 有 的 处 理 和 硬件 块 








12.5.1 IC3D SIMD 处 理 器 


IC3D 是 一 种 SIMD 处 理 器 ， 属 于 飞利浦 Xetal 家 族 。 它 由 五 个 专用 的 内 部 模块 
组 成 ， 见 图 12.7。 其 中 两 个 模块 是 视频 输入 处 理 器 和 视频 输出 处 理 器 。 它 们 能 够 
从 内 存 中 同时 输入 和 输出 三 个 数字 视频 信号 。 芯 片 的 核心 部 分 是 线性 处 理 器 阵列 
(LPA) ， 该 阵列 含 320 个 RISC 处 理 器 。 其 中 的 处 理 器 都 能 在 单个 时 钟 周期 内 对 并 
行 存 储 器 的 内 存 位 置 同 时 进行 读 写 访问 。 处 理 器 的 内 存 地 址 和 指令 在 SIMD 意义 上 
是 共享 的 。 所 有 的 处 理 器 也 可 以 直接 读 取 它们 左右 处 理 器 的 内 存 数 据 。 在 线性 阵列 
的 两 端 ， 处 理 需 的 输入 可 以 任意 耦合 或 镜像 。 处 理 器 的 可 下 载 指令 包括 单 周 期 乘 累 
加 算术 和 复合 指令 。 另 外 ， 处 理 器 的 条 件 保 护 指令 可 以 启动 数据 相关 操作 。 数 据 长 
度 为 10bit。 处 理 器 包含 2 个 字 寄 存 器 和 1 个 标志 寄存 岂 。 该 线性 存储 模块 能 存储 
64 行 ， 每 行 3200bit。 图 像 行 的 像素 以 交织 的 方式 存储 在 这 些 存储 器 中 。 因 此 ，CIF 
(320 x240) 图 像 每 个 处 理 右 需要 处 理 1 MRR, VGA (640x480) 图 像 每 个 处 理 
器 需要 处 理 2 个 像素 。GCP (全 局 控制 处 理 器 ) 是 专用 于 控制 IC3D 和 执行 特定 全 
局 DSP 数据 操作 的 处 理 器 。 它 控制 视频 同步 和 程序 流 ， 而 且 同 LPA 和 外 部 环境 进 
行 通 信 。fIC3D 的 峰值 像素 性 能 约 30GOPS。 尽 管 像素 性 能 很 高 ，IC3D 的 功 耗 却 不 
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高 。 不 仅 因 为 它 的 320 个 处 理 器 共享 解码 指令 ， 而 且 因为 它 的 存储 吉 访 问 基 于 包含 
整个 图 像 行 的 超 宽 存储 字 ， 而 不 是 消耗 更 多 的 能 量 来 访问 多 像素 宽 的 存储 位 置 。 在 
典型 应 用 ， 如 特征 发 现 或 人 脸 识别 中 ， 积 极 处 理 模 式 的 功 耗 将 低 于 100mW。 






Te -全 


64 行 存储 器 


到 12.7 “IC3D” 的 结构 ， 它 是 SIMD 芯片 “Xetal” 家 族 的 一 员 


GPO 
Dc 


视频 输入 I 






am 














12.5.2. Wim RAM 


双 端 口 (DP) RAM 将 实现 两 个 处 理 器 内 核 之 间 的 异步 连接 。IC3D 以 传感器 
速度 处 理 数据 (像素 ) 流 ， 而 8051 主 处 理 器 ( 稍 后 讨论 ) 却 不 是 。 此 外 ，8051 处 
理 器 的 高 级 任务 是 运行 非 恒 定时 间 程 序 ， 该 程序 将 随 场景 中 的 兴趣 对 象 数目 变化 。 

由 此 ，IC3D 记录 视频 信息 ， 如 对 象 的 特征 点 或 坐标 ， 甚 至 是 DPRAM 中 的 
(部 分 ) 图 像 。8051 读 取 并 分 析 这 些 信息 ， 然 后 对 场景 中 对 象 的 位 置 、 尺 度 或 运动 
方向 进行 判断 。 

DPRAM 还 可 以 将 信息 从 8051 传递 回 IC3D。 当 两 个 处 理 器 同时 使 用 同一 位 置 
记录 数据 时 ， 存 储 器 将 采用 信和 号 技术 防止 数据 损坏 。 存 储 器 也 为 特定 的 进程 分 配 存 
储 区 。 

目前 的 内 存 为 128K， 每 个 字 8bit， 分 为 两 个 64K 的 存储 区 。 如 果 系 统 存储 图 
像 格 式 ， 可 直接 存储 两 张 256 x 256 的 图 像 。 例 如 动态 背景 差 法 和 运动 估计 中 的 数 
据 就 是 以 图 像 格 式 存储 。 


12.5.3 8051 主 控制 器 


为 了 节省 元 件 并 维持 低 功 耗 ， 特 选用 ATMEL 的 顶级 8051, ， 见 图 12. 8。 它 仅 需 
要 很 少 的 组 件 就 可 以 构成 完整 的 系统 ， 并 拥有 大 量 的 可 用 L/O 引 脚 ， 从 而 实现 摄像 
机 及 其 外 围 环境 的 控制 。 其 存储 器 有 一 组 16bit 宽 的 外 部 地 址 总 线 ， 能 方便 地 连接 
到 与 IC3D 连接 的 双 端 口 存储 器 。8051 采用 由 IC3D 触发 的 中 断 线 来 指示 IC3D RITE 
之 间 特 殊 数 据 的 传输 。 并 且 采 用 1792B 的 内 部 RAM 和 64KB 的 闪存 来 存储 它 的 程 
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序 和 额外 的 数据 ， 其 内 部 2KB 的 EEPROM 用 于 存储 IC3D 的 参数 和 板 载 程序 。 它 
通过 UART 串口 与 外 界 通信 。UART 有 自己 的 波 特 率 发 生 器 ， 因 此 8051 的 三 个 定 
时 器 全 部 可 供用 户 使 用 ， 其 中 包含 两 个 8bit 定时 器 和 一 个 16bit 定时 器 。 它 们 部 分 
用 于 Có) 操作 系统 的 任务 切换 。 
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图 12.8 摄像 机 中 8051 的 结构 


12.5.4 Aquis Grain ZigBee 模块 


无 线 摄 像 机 的 收发 需 部 分 为 AquisGrain ZigBee 模块 。 它 由 飞利浦 研究 实验 室 以 
Chipcon 公司 的 CC2420 片上 系统 为 核心 开发 的 ， 见 图 12.9%! 。 此 无 线 系统 实现 
了 IEEE 802. 15. 4 标准 中 的 MAC 层 。 其 软件 编写 在 一 个 附加 的 8051 处 理 器 上 ， 而 

且 可 以 根据 特殊 用 途 的 应 用 而 修改 。802. 15. 4 提供 了 半径 范围 约 Sm 内 的 无 线 通 信 
标准 。 通 信 网 络 设备 的 启动 由 协调 器 发 起 。 对 等 结构 提供 了 摄像 机 与 摄像 机 的 直接 
fa?) 。 这 样 即 使 当 摄像 机 (甚至 是 协调 器 ) 发 生 开关 转换 时 ， 这 种 结构 的 和 鲁 棒 

也 能 使 得 网 络 继续 保持 稳定 ， 并 自动 对 变化 做 出 响应 。 该 通信 模块 作为 容量 有 限 
的 无 线 UART 串口 安装 到 摄像 机 上 。 它 数据 传输 的 最 大 速率 只 有 大 约 10KB/s， 只 
能 保证 场景 中 细节 或 事件 的 通信 ， 图 像 或 部 分 图 像 以 非 实时 速率 发 送 。 然 而 该 网 络 
完全 能 够 将 场景 中 的 诸如 人 脸 之 类 的 图 像 发 送 到 其 他 摄像 机 或 主机 处 理 器 。 虽 然 对 
于 目前 的 方案 来 说 ， 低 比特 率 看 起 来 会 产生 一 些 问题 ， 但 同时 它 也 解决 了 很 多 问题 
并 产生 了 新 的 挑战 。 例 如 ， 低 比特 率 实现 了 先前 提 到 的 低 功 耗 方案 。 男 外 ， 从 法 律 
和 隐私 的 角度 来 看 ， 摄 像 机 在 技术 上 不 能 传输 实时 视频 数据 ， 这 将 使 摄像 机 在 家 庭 
环境 中 更 受 欢 迎 。 其 他 无 线 标准 和 模块 可 以 通过 UART 总 线 连接 到 摄像 机 。ZigBee 
模块 的 低 比 特 率 迫使 我 们 要 求 摄像 机 本 身 做 大 量 的 处 理工 作 和 事件 描述 。 这 对 应 于 
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前 面 阐述 的 关于 能 量 效率 的 观点 : 发 射 速率 和 计算 量 是 对 立 的 。 











& 12.9 ”摄像 机 中 的 ZigBee 收发 模块 








12.6 软件 系统 


8051 具有 系统 编程 功能 ， 从 而 实现 了 摄像 机 的 无 线 或 远程 编程 。 在 运行 时 新 
的 IC3D 程序 可 以 通过 下 C 从 8051 上 传 。 外 部 PC EEPROM 可 存储 16 个 用 于 内 容 
切换 的 应 用 程序 。8051 将 程序 加 载 到 Xetal 来 解决 场景 中 的 特定 任务 。 

无 线 摄像 机 的 软件 由 几乎 独立 开发 的 三 个 部 分 组 成 。IC3D 处 理 器 的 程序 采用 
带 有 隐 式 并 行 数据 类 型 的 扩展 C++ 程式 编 写 。 所 有 的 程序 都 以 基于 行 的 方式 编写 ， 
其 中 由 单 时 钟 周期 指令 来 处 理 完整 的 图 像 行 。 保 护 指 令 可 以 实现 数据 自 适 应 软件 结 
构 。 该 处 理 器 主要 运行 图 像 改 善 ， 运 动 分 析 ， 目 标 检测 和 跟踪 算法 功能 。 它 的 程序 
设计 用 于 跟踪 随时 间 变 化 的 对 象 数据 。 该 程序 执行 主机 功能 (运行 操作 系统 ) 并 
且 决 定 将 事件 传送 到 主机 系统 。 


12.7 硬件 平台 上 的 实时 视觉 算法 


网 络 系统 摄 像 机 通常 用 于 监控 。 它 们 主要 用 来 检测 人 物 ， 并 报告 异常 情况 。 复 
杂 环 境 中 对 (自然 ) 物体 的 检测 比较 困难 。 格 拉 茨 大 学 的 智能 组 利用 智能 网 络 摄 
像 机 来 实现 交通 监控 "“ 。 另 外 , 在 MT 媒体 实验 室 的 “眼睛 社会 ”项 目 中 与 摄像 
机 无 线 连 接 的 掌上 电脑 实现 了 分 布 式 识别 任务 的 执行 、*i。 此 外 ,普林斯顿 大 学 
(Princeton University) 能 入 式 系 统 组 进行 了 智能 摄像 机 网 络 中 的 分 布 式 处 理 研 究 ， 
它 应 用 于 对 象 跟踪 并 且 有 指导 意义 。 
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就 二 维 (图 像 传感器 ) 拍摄 场景 中 获取 三 维 (世界 ) 对 象 而 言 ， 上 述 技术 还 
存在 一 些 挑战 。 对 象 相对 摄像 机 的 取向 不 同时 ， 它 们 的 定位 ， 旋 转 和 形状 也 将 不 
同 。 当 场景 中 的 对 象 被 部 分 遮挡 时 仍然 需要 检测 。 此 外 ,场景 的 照明 条 件 在 非 受 控 
的 情况 下 是 不 可 靠 的， 色彩 将 受到 照明 条 件 和 明暗 度 的 影响 。 这 些 实际 的 问题 需要 
三 维 多 摄 像 头 技术 和 图 像 分 析 领 域 的 一 些 特殊 方法 ， 使 得 角度 和 照度 变化 的 观察 具 
^ f TE, 

从 不 同 角 度 观 察 相 似 的 物体 ， 为 了 能 区 别 外 观 的 不 同 ， 选 择 基 于 特征 的 方法 是 
合适 的 ， 并 且 该 方法 能 兼顾 硬件 低 功 耗 的 要 求 。 当 处 理 自然 场景 中 的 物体 时 ， 该 方 
法 的 性 能 较 高 。 原 因 是 物体 的 特征 具有 尺度 ， 旋 转 ， 色 彩 和 强度 不 变性 。 使 用 该 技 
术 时 ， 首 先 要 从 图 像 中 检测 特征 。 这 些 特征 的 形式 可 以 很 简单 ， 如 颜色 组 合 、 角 或 
边缘 块 ， 也 可 以 比较 复杂 ， 如 Haar 滤波 器 , Gabor 滤波 器 的 啊 应 ， 以 及 常用 的 
基于 SiFT 的 斑点 特征 :5 , FA 12. 10 是 一 幅 角 检测 图 像 ， 彩 色 部 分 表示 角 的 位 置 和 
类 型 。 从 检测 实际 的 角 到 标记 其 位 置 和 类 型 之 间 存 在 流水 线 的 延迟 。 角 检测 在 
31 x31 的 过 滤器 中 进行 。 列 出 角 的 类 型 和 局 部 梯度 信息 就 足以 从 几 十 张 其 他 图 像 中 
识别 出 目标 图 像 。 角 检测 应 用 在 很 多 方面 ， 如 建筑 物 、 墙 壁 和 家 具 等 人 造 结构 的 结 
构 查 询 ， 以 及 姿态 分 析 。 如 图 12. 11 所 示 为 斑点 特征 (参考 文献 [329 ] ) 。 根 据 特 
征 本 身 的 位 置 ， 将 它 周围 的 点 与 数据 库 系 统 进行 匹配 ， 从 而 得 到 该 特征 的 描述 。 该 
数据 库 系 统 可 以 从 存储 集合 中 识别 出 特定 的 特征 。 
















































































图 12.10 角 检测 是 识别 人 造物 体 的 一 种 简单 方法 ， 

















图 中 所 示 为 交通 标志 识别 项 目的 截屏 
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12. 11 对 自然 物体 而 言 ， 斑 点 特征 法 前 景 较 好 。 在 图 中 ， 
标注 圈 的 大 小 和 亮度 表明 了 斑点 最 易 出 现 的 范围 





基于 特征 的 技术 其 主要 优点 为 ， 算 法 可 以 明显 地 划分 为 像素 并 行 部 分 和 任务 并 
行 部 分 。 其 中 ， 实 际 的 特征 查询 将 对 所 有 像素 执行 相同 的 任务 ， 因 此 它 是 像素 并 行 
部 分 ， 而 分 析 部 分 则 是 通过 对 检测 到 的 任意 (未 知 ) 数量 的 特征 点 进行 处 理 ， 从 
而 实现 任务 并 行 部 分 。 

在 我 们 的 模型 中 ，IC3D 查询 视频 中 的 特征 点 ， 并 将 这 些 特征 点 写 人 到 双 端 口 
RAM。8051 以 自身 速度 从 RAM 中 检索 出 这 些 特征 点 ， 并 将 它们 与 内 部 数据 库 比 
较 ， 或 者 将 两 个 摄像 机 的 特征 点 进行 比较 。 


12.8 WiCa 的 应 用 研究 


飞利浦 和 NXP 研究 组 开发 的 诸多 方案 , 已 经 应 用 在 了 当前 的 无 线 智能 摄像 机 
上 。 分 层 通信 协议 是 在 该 平台 上 测试 过 的 方案 之 一 ， 它 的 发 展 实现 了 不 同 摄像 机 处 
理 器 之 间 的 直接 通信 '52?] 。 成 像 人 出 ， 为 了 使 误 检测 率 最 小 化 ， 将 不 同 图 像 传感器 的 
检测 结果 融合 后 ， 进 行 分 布 式 人 脸 检 测 的 映射 ”1 。 而 且 演示 了 基于 手 部 检测 的 姿 
态 识别 的 首 批 方案 。 对 非 系统 安装 的 摄像 机 ， 我 们 研究 的 摄像 机 标定 技术 "” 实现 
了 准确 的 分 布 式 处 理 。 所 有 方案 均 实时 运行 在 分 布 式 无 线 智能 摄像 机 系统 上 ( 视 
Ai 24 或 30 帧 /s) 。 为 了 调试 , 将 LCD (液晶 显示 屏 ) 连接 到 摄像 机 ， 从 而 显示 视 
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频 路 径 。 本 节 中 的 图 像 取 自 液晶 显示 屏 。 图 像 处 理 部 分 的 功 耗 由 处 理 器 的 负载 所 决 
E, 一 般 大 约 是 50 ~250mW。 以 下 描述 的 算法 例子 是 应 用 的 核心 部 分 。 

为 了 控制 WiCa, 我们 在 主机 上 运行 WiCaEnv 程序 。 若 该 程序 通过 UART (B 
O) 被 直接 连接 到 WiCa， 它 将 模拟 一 个 ASCI 终端 。 如 果 连 接 到 Aquis Grain USB 
棒 ， 它 将 向 网 络 上 所 有 可 用 的 WiCa 提交 请 求 ， 并 构建 列表 。 人 们 通过 列表 选择 一 
个 WiCa 便 可 建立 到 特定 摄像 机 的 无 线 终 端 。 随 后 ，WiCaEnv 将 用 于 控制 DPRAM, 
将 程序 上 传 到 IC3D 和 8051， 建 立 传 感 器 和 IC3D 参数 ， 并 上 传 /下载 内 容 到 /从 
DPRAM, 

背景 减 除 是 一 种 机 制 ， 它 用 于 检测 固定 摄像 机 给 定 帧 序列 的 所 有 前 景 目标 。 其 
中 ， 背 景 图 像 必须 适应 光照 的 渐变 和 突变 ， 运 动 变 化 ， 摄 像 机 振动 ， 传 感 器 的 灵敏 
度 等 。 有 许多 不 同 的 背景 技术 ， 例 如 运行 期 均值 法 ， 混 合 高 斯 法 ， 内 核 密度 估计 
法 ,或 特征 背景 法 。 将 DPRAM 作为 存储 区 ， 根 据 背 景 数 对 分 辩 率 进行 折 中 便 可 实 
现 中 低 规模 存储 需求 的 所 有 背景 技术 。 图 12. 12 为 背景 减 除 的 应 用 。 这 种 应 用 进行 
轮廓 检测 ， 其 结果 将 作为 基于 模糊 边缘 的 人 脸 识别 系统 的 一 个 输入 "1 。 在 识别 出 
眼睛 的 部 位 用 水 平 条 标 出 。 近 来 目标 识别 的 轮廓 和 曲率 匹配 方面 的 研究 很 多 。 在 
SIMD 上 实现 多 尺度 匹配 过 程 ， 使 该 过 程 可 以 实时 进行 1。 要 实现 实时 屏幕 旋转 
或 变换 ， 必 须 为 每 一 个 像素 单独 分 配 地 址 。 由 于 SIMD 上 对 整个 视频 行 的 所 有 操作 
相似 ， 因 此 该 任务 在 SIMD 上 不 容易 实现 。 但 通过 使 用 外 部 DPRAM，WiCa 结构 将 
能 够 执行 基于 图 像 宽 的 操作 。 该 RAM 的 地 址 总 线 被 连接 到 IC3D 的 数据 输出 端 。 
任何 图 像 变换 运算 ， 均 能 按 像素 地 址 逐 行 编写 为 SIMD 指令 ， 从 而 可 以 高 效 地 
实现 。 


























= p Ed clc 


图 12. 12 ”利用 背景 减 除法 来 识别 摄像 机 前 面 的 人 的 轮廓 ， 这 些 轮廓 
将 作为 眼睛 识别 应 用 的 输入 ， 图 中 用 水 平 条 标 出 的 部 位 为 眼睛 
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图 12. 13 是 执行 x 轴 (倾斜 ) 旋转 程序 的 截屏 。 该 程序 基于 射影 变换 是 齐 次 坐 
标的 非 奇 异 线性 变换 。 它 显示 屏幕 中 心 的 旋转 轴 在 -36" 和 +36。 (HW BR) 之 间 的 
倾斜 。 并 且 应 用 在 车 道 检测 预警 系统 以 及 立体 深度 估计 的 摄像 机 校准 中 。 图 12. 14 
是 对 输入 图 像 进 行 边缘 检测 ( 罗伯特 交叉 算 子 ) 后 得 到 的 一 幅 二 值 图 像 。 屏 幕 顶 
部 的 霍 夫 空间 由 互相 垂直 的 线 显示 。 应 用 WiCaFnv， 能 够 将 霍 夫 空间 保存 到 
DPRAM, 、 利 用 8051 扫描 霍 夫 空间 , ADAIR ADEA. 然后 将 这 些 信 
息 保 存 到 IC3D 中 。 利 用 IC3D 可 以 在 显示 器 上 画 线 (显示 为 灰色 覆盖 ) 表明 已 发 
现 线 的 地 方 。 脚 注 和 晶 链 接 的 视频 演示 为 结果 和 方法 改进 。 参 考 文献 [232] 说 
明了 该 方法 本 身 。 












































到 12. 13 ”通过 在 SIMD 模式 下 人 处理 地 址 数据 ， 利 用 一 些 操作 
可 以 按照 视频 速度 对 图 像 进行 仿 射 变换 


图 12. 15 是 基于 背景 减 除 方法 的 一 种 应 用 。 首 先 将 背景 保存 在 内 存 中 ， 用 于 后 
续 帧 的 背景 减 除 。 然 后 通过 阔 值 得 到 差 值 图 像 的 二 值 图 像 。 只 有 产生 差异 的 前 三 行 
被 保存 到 内 存 中 。 例 如 以 这 种 方式 识别 手指 顶部 可 以 产生 一 个 人 机 接口 。 下 图 显示 
了 如 何 画 一 幅 图 像 。 显 示 在 屏幕 上 方 的 颜色 条 用 于 改变 绘图 的 颜色 。 仅 仅 通 过 点 击 














©  Xetal Team 2008 年 实时 霍 夫 变换 。 http: //www. youtube. com/watch? v = jpfcl vp5 XOQ. 
©  Xetal Team 2008 年 实时 霍 夫 变换 。 显 示 姿 态 控制 。http : www. youtube. com/watch? v = 6afjNlranTw. 
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& 12. 14 在 图 像 上 部 可 以 看 到 霍 夫 空间 ， 产 生 了 三 条 明显 的 标注 竖 线 








就 可 以 选择 所 需 的 颜色 。 视 频 2 中 所 示 为 实时 手指 识别 的 另 一 个 示例 ， 其 方法 为 融 
合 边缘 密度 ， 运 动 矢 量 和 及 其 强度 以 及 彩色 信息 来 实现 实时 手 部 跟踪 。 现 场 引 入 更 
多 的 摄像 机 使 得 鲁 棒 的 姿态 识别 技术 领域 得 到 发 展 。 基 于 单 摄像 机 的 姿态 识别 结果 
不 具有 重 棒 性 55] 。 然 而 ， 在 该 过 程 中 引进 更 多 的 摄像 机 ， 已 获得 了 显著 效果 。 另 
外 ， 在 协作 方式 下 ， 每 个 摄像 机 进行 姿态 分 析 并 且 将 得 到 的 二 维 结果 发 送 到 同一 个 
中 心 ， 经 卡尔 曼 滤 波 器 获得 三 维 结果 。 有 关 论 文 见 参 考 文献 【576，601 ] 。 视 频 演 
示 见 脚注 稀 。 

最 主要 的 任务 ， 例 如 立体 化 深度 估计 ， 本 质 上 也 是 协同 摄像 机 任务 。 然 而 ， 在 
该 方法 中 ， 为 便于 协同 工作 ， 传 感 器 之 间 非 常 靠近 且 具 有 很 高 的 内 部 带宽 。 研 究 结 
果 见 参考 文献 [209, 210], ， 后 一 篇 文献 中 也 涉及 了 摄像 机 自动 校准 。 深 度 估计 的 























©  Xetal Team 2008 年 实时 霍 夫 变换 。 实 时 手指 跟踪 演示 。 http: //www. youtube. com/watch? v = 
yc2fLsU20M. 

© Xetal Team 2008 年 用 于 姿态 识别 的 协作 摄像 机 。http : //www. youtube. com/watch? v = RetO8FdBzQuU. 

©  Xetal Team 2008 年 利用 两 个 WiCa 摄像 机 进行 实时 姿态 分 析 。 http: //www. youtube. com/watch? v = 
zEl_NmaEd_w. 
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视频 演示 见 脚 注 .9'9,9 
































图 12. 15 该 应 用 为 一 种 用 户 接 口 装置 。 该 装置 可 以 识别 出 手指 ， 从 而 通过 手指 


进行 选择 菜单 和 画 夯 可 以 进行 演示 。 图 中 所 示 为 通过 该 装置 所 做 的 一 幅面 














12.9 未 来 的 研究 方向 


我 们 的 长 期 目标 是 发 展 无 处 不 在 的 智能 摄像 机 网 络 。 这 些 网 络 有 多 种 用 途 并 且 
以 人 为 中 心 。 比 如 同一 网 络 可 以 用 来 游戏 ， 老 人 护理 ， 房 屋 通 信 自动 化 ， 零 售 和 监 
控 。 只 需要 将 一 个 插件 设备 连接 到 传 感 带 网 络 即 可 ， 其 中 摄像 机 在 人 的 出 现 及 其 行 
为 的 监控 中 发 挥 着 重要 的 作用 。 这 种 智能 摄像 机 网 络 目前 并 不 具有 如 此 的 经 济 价 
值 。 监 控 以 及 照明 公司 正在 致力 于 研究 自己 的 摄像 机 ( 网络) 应用。 游戏 控制 台 
开始 使 用 摄像 机 ， 连 老人 护理 机 构 也 开始 尝试 引进 计算 机 视觉 。 

数 年 后 ， 为 了 不 同 的 应 用 ， 环 境 中 将 并 行 覆 盖 更 多 的 摄像 机 网 络 。 那 时 ， 这 种 
无 处 不 在 的 摄像 机 网 络 显然 能 够 降低 安装 成 本 ， 从 而 变 得 经 济 可 行 。 实 际 上 ， 摄 像 
机 网 络 将 与 其 他 成 熟 的 传感器 网 络 融合 ， 并 且 服 务 提 供 商 将 维护 站 点 周围 的 系统 。 














C) Xetal Team 2008 年 利用 一 个 Xteal 智能 摄像 机 进行 深度 估计 。http: //www. youtube. com/watch? v = 























YVnxYftmTNE. 
C Xetal Team 2008 年 利用 Xteal 智能 摄像 机 处 理 器 进行 深度 估计 。http: //www. youtube. com/watch? v = 
sLK49e2RNTQ. 


G Xetal Team 2008 年 Wical. 1 立体 装置 。 http: //www. youtube. com/watch? v = C-uznmQnC8U. 
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连接 到 网 络 的 监视 系统 可 以 获得 被 标记 人 员 实 时 更 新 的 跟踪 信息 。 老 人 护理 系统 利 
用 网 络 可 以 检测 选 定居 民 可 能 的 变故 或 不 寻常 行为 。 游 戏 或 娱乐 系统 将 通过 网 络 获 
得 实时 的 姿态 信息 。 

建立 这 种 协同 摄像 机 网 络 需要 很 多 各 方面 的 技术 。 单 独 的 研究 小 组 只 能 够 胜任 
其 中 的 一 部 分 。 知 要 完成 整个 系统 ， 许 多 研究 机 构 ， 大 型 企业 和 高 科技 企业 需要 密 
切合 作 。 


12.10 4it 


本 文 提出 了 无 线 智能 摄像 机 平台 ， 它 应 用 于 分 布 式 场景 分 析 的 研究 。 智 能 摄像 
机 实质 上 是 内 置 处 理 的 摄像 机 ， 它 是 环境 智能 应 用 中 关键 的 传感器 。 经 过 本 地 处 理 
之 后 ， 系 统 仅 是 将 信息 的 关键 字 无 线 发 送 到 主机 。 这 与 早期 的 将 实时 视频 广播 到 主 
机 的 技术 相 比 ， 更 加 节省 功 耗 ， 这 当然 归功 于 处 理 器 架构 和 硅 工 艺 技术 的 进步 。 同 
时 ,我们 衷心 感谢 NXP 研究 机 构 (前 身 为 飞利浦 研究 机 构 ) 的 Xetal 团队 ， 以 及 
许多 来 访 的 学 生 ， 他 们 做 出 了 许多 贡献 。 
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摘要 现代 自动 视频 分 析 系 统 由 输出 特性 不 同 的 大 型 异 构 传 感 器 网 络 组 成 ， 例 
如 ， 项 态 监控 摄像 机 ， 云 台 变焦 (PTZ) 摄像 机 ， 红 外 摄像 机 ， 雷 达 和 高 光谱 传 感 
器 。 这 些 系统 不 仅 从 各 个 传感器 上 提取 内 容 ， 而 且 集 成 和 融合 了 来 自 不 同 传感器 的 
信息 ， 从 而 有 效 地 提供 站 点 范围 内 的 情境 感知 。 要 对 站 内 的 场景 理解 进行 数据 分 析 
和 融合 ， 关 键 步骤 是 将 多 个 传感器 的 观测 值 映 射 到 同一 坐标 系 中 。 在 本 章 中 ， 我 们 
提出 了 一 个 数据 驱动 方法 ， 在 大 型 视觉 传 感 带 网 络 中 ， 该 方法 用 于 目 动 化 和 半自动 
化 佑 计 传 感 器 间 的 映射 ， 重 琶 摄 像 机 的 拓扑 关系 以 及 地 理 注册 。 数 据 驱 动 方法 根据 
传感器 一 段 时 间 中 的 观测 值 ( 例 如， 同步 目标 检测 图 像 对 ) 来 推断 传感器 的 几何 
拓扑 结构 和 网 络 拓扑 结构 。 由 于 这 些 方 法 将 目标 观测 值 作为 主要 特征 ， 因 此 不 仅 可 
以 在 无 特征 区 进行 传感器 注册 ， 而 且 也 不 需要 知道 传 感 需 的 输出 特性 。 此 外 ， 它 们 
也 可 自动 适应 传感器 几何 拓扑 结构 的 变化 。 本 章 中 提出 的 数据 驱动 方法 利用 域 和 特 
定 模 型 属性 来 开发 高 效 采 样 的 机 制 ， 从 而 用 于 估计 外 点 存在 时 的 鲁 棒 模型 。 
































13.1 简介 


现代 自动 视频 分 析 系 统 由 具有 不 同 输出 特性 的 大 型 异 构 传 感 右 网 络 组 成 ， 例 
如 ， 吏 态 监 控 摄 像 机 ， 云 台 变 焦 (PTZ) 摄像 机 ， 红 外 摄像 机 ， 雷 达 和 高 光谱 传 感 
ALON ARS ESI 通过 分 析 和 融合 传感器 的 数据 来 获得 站 内 的 情境 感知 和 场景 
理解 ， 需 要 将 来 自 多 个 传感器 的 观测 值 映射 到 同一 坐标 系 中 。 例 如 ， 将 多 个 传感器 
的 观测 目标 映射 到 大 地 坐标 系 ， 并 显示 在 基于 地 图 的 界面 或 地 理 浏览 器 ， 例 如 ， 谷 
WIBER (Google Earth) ， 美 国航 空 航天 局 世界 风 (NASA WorldWind) 。 这 种 映射 也 
实现 了 关键 的 操作 任务 ， 如 网 络 中 多 个 目标 测量 值 的 融合 ， 目 标 相 对 或 标准 体积 
其 速度 的 推断 ， 传 感 器 间 的 目标 切换 ，PTZ 摄像 机 和 移动 传感器 之 间 的 任务 分 配 以 
及 站 内 推理 。 因 此 ， 许 多 的 多 传感器 视频 分 析 系 统 在 安装 时 需要 进行 地 理 注册 和 传 
RETA BEE?! (同样 见 第 9 章 ) 。 一 般 认 为 这 时 所 获取 的 信息 不 随时 间 改 变 ， 其 实 
是 不 正确 的 。 对 所 有 传感器 而 言 ， 估 计 和 维护 地 理 注 册 需 要 一 个 自动 的 高 效 机 制 。 

一 家 大 型 研究 机 构 ， 利 用 图 像 特征 进行 监控 和 无 人 监控 的 传 感 咒 注册 。 最 简单 
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的 情况 下 ， 人 工 提供 图 像 和 基准 图 像 (map) 中 的 四 个 以 上 的 对 应 点 便 可 实现 平面 
场景 和 透视 摄像 机 的 注册 '”] 。 然 而 ， 在 很 多 情况 下 ， 基 于 特征 的 技术 并 不 可 行 
(例如 ， 利 用 摄像 机 检测 水 地 区 或 其 他 不 包含 许多 可 区 别 特征 或 本 地 化 特征 不 明显 
的 地 形 ) ， 并 且 手 动 注册 需要 较 长 的 建立 时 间 ， 专 用 的 工具 和 复杂 的 准备 。 基 于 特 
征 方法 的 缺陷 以 及 对 传 感 咒 几何 拓扑 结构 自动 估计 和 维护 的 方法 的 需求 已 激励 了 数 
据 驱动 的 方法 ， 该 方法 利用 随时 间 变 化 的 传感器 观测 值 (例如 ， 成 对 的 同步 目标 
检测 值 ) 来 推断 传感器 的 几何 拓扑 结构 和 网 络 拓扑 结构 PT 。 由 于 这 些 方 
法 将 目标 观测 作为 主要 特征 ， 这 样 不 仅 可 以 在 无 特征 区 进行 传感器 注册 ， 而 且 也 不 
需要 知道 传感器 的 输出 特性 。 此 外 ， 它 们 也 可 自动 适应 传 感 顺 几何 拓扑 的 结构 变 
化 。 这 些 方法 所 面临 的 主要 挑 成 是 自动 鲁 棒 地 从 带 噪 观测 值 中 提取 内 点 。 不 同 的 数 
据 驱 动 方法 解决 这 个 问题 的 方法 不 同 。 我 们 提出 的 方法 是 利用 特定 域 和 特定 模型 的 
属性 来 约束 搜索 空间 ， 从 而 实现 高 效 的 模型 估计 和 噪声 处 理 。 特 别 地 ， 该 方法 利用 
单 应 变换 时 点 的 共 线 不 变性 ， 得 到 缩小 的 搜索 空间 ， 该 空间 的 外 点 〈 在 数据 中 ) 
所 占 的 百分比 明显 小 于 原始 搜索 空间 。 大 多 数 现 有 的 数据 驱动 方法 都 没有 考虑 镜头 
畸变 对 单 应 性 估计 的 影响 。 在 目前 频繁 使 用 的 高 分 辩 率 传感器 中 ， 这 种 畸变 影响 万 
为 突出 。 本 文 表 明 ， 我 们 所 提 方 法 可 实现 带 噪 场景 中 的 单 应 性 估计 以 及 镜头 畸变 参 
数 佑 计 。 分 析 结 果 和 定量 结果 表明 ， 当 场景 严重 带 噪 〈 含 有 85% 以 上 的 外 点 ) 并 
存在 镜头 畸变 时 ， 我 们 的 方法 在 应 用 于 高 效 鲁 棒 性 平面 单 应 性 佑 计时 性 能 最 好 。 我 
们 将 其 应 用 到 包括 大 型 传感器 网 络 的 多 个 方面 。 包 括 : 中 在 定期 的 系统 地 理 注 册 
中 ， 融 合 来 自 目 标 和 带 有 射频 识别 (RED) 标签 的 车 辆 和 人 员 的 数据 ， 其 中 的 目 
标 广 播 自 己 的 地 理 位 置信 息 ， 如 专用 移动 单元 Ol. A, JE) 或 广播 自动 识别 系 
Zt (AIS) 信息 的 目标 ;@ 融 合 来 自传 感 器 的 信息 ， 这 些 传感器 带 有 用 于 自动 地 理 
注册 和 维护 的 视觉 传感器 ， 记 录 视 场 内 目标 的 地 理 位 置 〈 例 如 ， 雷 达 ) ; @ 通 过 融 
合 传感器 的 目标 观测 值 对 视 场 重 全 的 多 视觉 传感器 进行 校准 。 我 们 在 13.4 PIE 
式 定 义 了 数据 驱动 传感器 的 校准 问题 ， 这 些 应 用 程序 都 将 作为 特例 。 接 下 来 ,我们 
将 这 些 问题 统称 为 数据 驱动 多 传 感 咒 校准 。 






























































13.2 问题 定义 和 相关 研究 





在 大 多 数 监控 情景 中 ， 一 般 假设 场景 中 的 兴趣 区 ( 即 目标 移动 的 区 域 ) 是 平 
面 的 (例如 ， 见 第 17 章 )。 我 们 也 进行 了 这 样 的 假设 。 平面 区 域 中 两 个 传感器 C, 
和 C, 的 视 场 之 间 的 关系 ， 表 示 为 一 个 单 应 性 矩阵 (由 一 个 3 x3 矩阵 给 定 ， 称 为 H 
矩阵 ) 。 如 果 p, 是 C, 视 场 内 地 平面 上 的 一 点 的 投影 ，m 是 C, 中 的 对 应 点 (p, 所 指 相 
同 地 面 位 置 的 投影 ) EBA p, = Hp,， 其 中 p, 和 pp 都 位 于 齐 次 坐标 系 中 。 对 两 幅 地 面 
图 像 中 的 四 个 以 上 的 对 应 点 进行 识别 ”1 可 以 得 到 一 个 线性 系统 ， 并 且 并 不 会 得 到 
非 线性 的 非 理想 情况 。 求 解 这 个 线性 系统 便 得 到 单 应 性 矩阵 瓦 。2, 是 传感器 C, 的 观 
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测 值 的 集合 ， 其 中 Z = U,Z,(t),Z,(t) = UZ; C), Z5 (00, Z; 00), Z; GRE FS 
AE CERTI] t 内 的 有 DO 次 观测 值 的 集合 。 给 定 传 感 器 对 (C, C) 之 间 的 所 有 共 现 
观测 值 对 的 集合 定义 为 Z; = U,Z;(?) x Z(t). WR Z (a, AZ? (5) 都 属于 世界 中 相 
同 目标 的 观测 值 ( 即 满足 单 应 性 关系 )， 则 这 个 观测 值 对 z= (2 (0. Zi Qe 
2Z, 称 为 一 个 内 点 ， 否 则 zj; 称 为 一 个 外 点 。 多 传感器 校准 问题 就 是 同步 识别 
(Ci, COPRIS (EME) 和 内 点 。 

在 多 传感器 注册 中 ， 根 据 是 否 需 要 训练 数据 或 用 户 监 督 可 以 将 数据 驱动 方法 划 
AA Wipi bt] 295 287.699.2677 gp J gi ge (910-710-997 90728 A891 基于 它们 学 习 的 模型 类 型 ， 可 
PAG BR sh Jrikxt—2b X], EE An JL fup BY 787 310.510.555] f — Sir Jii qty [285,499,352,528,200] 。 
几何 模型 中 明确 地 描述 传感器 (或 一 个 传感器 和 参照 ) 之 间 的 几何 关系 ， 并 提供 
一 个 共同 的 坐标 体系 ， 从 而 实现 传感器 融合 和 传感器 间 跟 踪 。 无 论 传感器 间 是 否 有 
重合 视 场 ， 几 何 模 型 均 可 应 用 于 融合 传感器 (无 重合 视 场 的 传 感 占 融合 应 用 于 地 
理 注 册 ) 。 然 而 ， 一 致 模型 表示 传感器 相应 观测 值 之 间 的 似 然 性 ， 并 且 当 传感器 间 
的 视 场 不 重 堆 并 且 不 可 以 进行 地 理 注 册 时 ， 该 模型 可 以 实现 传感器 间 的 跟踪 。 

本 章 中 介绍 的 方法 用 于 估计 几何 模型 ， 即 无 师 方 式 的 平面 单 应 性 ， 并 且 与 
[310], [510] 和 [483] 更 加 密切 相关 。 [310] 中 提出 了 一 种 无 师 数据 驱动 方 
法 ,利用 RANSAC (随机 抽样 一 致 算法 ) 处 理 同步 出 现 的 目标 观测 数据 (检测 
值 ) ， 从 而 获得 视 场 重 登 传感器 间 的 平面 单 应 性 。 虽 然 RANSAC 可 以 处 理 50% 以 上 
的 外 点 ， 但 是 当 这 个 比例 增加 时 ”51 ， 它 的 代价 将 变 得 很 高 ， 并 且 有 时 即使 经 
过 成 百 上 千 次 的 迭代 也 得 不 到 结果 "1。 最 近 ， 人 们 尝试 提高 标准 RANSAC (随机 
抽样 一 致 算法 ) 在 应 用 于 带 品 数据 时 的 效率 933. 雪 934.34] 。 这 些 方法 虽然 很 高 
Ak, 但 是 在 处 理 大 量 外 点 时 却 有 局 限 性 。 例 如 ， 参 考 文献 [594] 介绍 的 算法 在 基 
本 和 珑 阵 估计 问题 中 可 以 处 理 70% 的 外 点 ， 而 参考 文献 [554] 中 的 算法 在 简单 的 线 
性 拟 合 问题 中 可 以 处 理 约 85% 的 外 点 。 在 多 传感器 协作 工作 的 情况 下 ， 需 要 检 出 
绝 大 部 分 的 外 点 ， 为 此 参考 文献 [510] 中 采用 了 信息 跟踪 (而 不 是 检测 值 ) 的 方 
法 。 该 方法 基于 场景 中 目标 的 数量 、 当 时 的 目标 轨迹 对 的 数量 、 匹 配 概率 和 由 
RANSAC 算法 得 到 的 非 均匀 采样 轨迹 对 ， 应 用 启发 式 似 然 法 去 处 理 两 个 摄像 机 共同 
产生 的 每 对 轨迹 。 虽 然 这 种 方法 在 参考 文献 [310] 的 基础 上 已 有 所 改进 ,但 在 带 
噪 数据 和 业务 量 密度 比较 高 的 场景 中 ， 它 对 跟踪 过 度 依 赖 无 疑 是 一 个 缺陷 。 参 考 文 
WK [483] 中 提出 了 一 种 基于 密度 的 方法 ， 它 不 依赖 于 跟踪 数据 并 且 能 够 处 理 数据 
中 的 大 量 外 点 。 通 过 内 核 密度 估计 方法 计算 出 目标 位 置 同 时 出 现 的 联合 概率 密度 佑 
计 ， 并 且 通 过 均值 漂移 获得 模式 。 然 后 使 用 皮尔 森 相 关系 数 对 这 些 模式 进行 加 权 并 
使 用 RANSAC 算法 对 它们 进行 非 均 匀 采 样 。 由 于 如 果 使 用 与 原始 数据 相反 的 模式 ， 
则 该 算法 在 RANSAC 应 用 之 前 便 可 剔除 大 部 分 外 点 ， 因 此 该 算法 可 以 应 用 在 带 噪 
场景 中 。 该 文中 还 介绍 了 一 种 检测 和 适应 拓扑 结构 变化 的 方法 ， 它 基于 模式 与 已 
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得 单 应 性 的 一 致 性 。 参 考 文献 [483] 中 的 密度 估计 假设 目标 观测 中 长 期 观测 和 
宛 余 的 可 用 性 。 不 过 ， 在 很 多 实际 情况 下 ， 其 中 的 一 个 或 两 个 假设 不 成 立 ， 例 
如 ， 在 视 场 面积 很 大 或 漂移 相当 频繁 的 场景 中 ， 获 得 元 余数 据 和 连续 数据 是 非常 
困难 的 。 

本 文 所 提出 的 算法 并 没有 做 这 些 假设 ,而 是 通过 几何 拓扑 结构 不 变性 来 限制 
RANSAC 采样 ， 从 而 处 理 了 小 数据 集中 的 大 量 外 点 。 参 考 文献 [361, 393, 533, 
402, 554, 594] 中 均 尝 试 改进 RANSAC 算法 ， 从 而 实现 在 几何 模型 估计 问题 中 的 
应 用 。 相 反 ， 本 算法 却 利 用 特定 模型 的 知识 实现 了 外 点 比例 为 95% 以 上 的 数据 处 
理 。 该 算法 的 高 效 性 以 及 极 少 的 数据 要 求 也 使 它 能 够 适应 网 络 拓 扑 结 构 的 变化 。 





13.3 用 于 高 效 采样 的 特定 模型 属性 





本 节 中 ， 我 们 详细 说 明了 存在 外 点 的 模型 估计 问题 中 ， 如 何 选择 特定 模型 属性 
来 实现 高 效 采 样 。 

设 Z 是 一 个 观测 值 集合 ，W 是 我 们 想 要 从 Z 中 估计 出 的 模型 。 对 于 每 一 个 ze 
Z, 了 是 一 个 二 元 指示 符 ， 当 且 仅 当 = 为 内 点 时 ， 它 的 值 为 1， 设 0, =1 -71,。 基 于 
RANSAC 的 方法 (如 参考 文献 [310]) 从 集合 2 中 迭代 产生 随机 样本 ， 然 后 通过 
样本 佑 计 一 个 模型 M (如 单 应 性 ) ， 再 通过 整个 数据 集合 评 佑 模型 直到 找到 适合 Z 
中 大 部 分 元 素 的 模型 ( 由 噪声 概率 定义 ) 或 者 达到 了 预定 义 的 最 大 迭代 次 数 。 

根据 贝 叶 斯 定理 ， 从 集合 2 中 随机 采样 一 个 内 点 s 的 概率 为 

P(I, 21) e (1, 21105) P(s) (13. 1) 

例如 ， 对 于 一 个 服从 均匀 分 布 的 样本 (如 在 标准 RANSAC 中 ), PO, = 1) = 

Y ZA 2Z1 。 为 了 简洁 起 见 ， 本 文中 的 其 余部 分 将 省 略 二 元 随机 变量 的 值 ， 除 

非 另 有 规定 ， 和 否则 假设 它 为 1。 给 定数 据点 〈 样 本 ) 的 最 小 数量 m， 它 用 于 估计 模 

型 M 以 及 计算 一 个 随机 采样 点 为 内 点 的 概率 PCI) ， 若 要 以 概率 p 获得 m 个 样本 点 

中 的 自由 外 点 集合 ， 所 需 的 迭代 次 数 为 J= 1 In(1-7p) /In(1 2 PCL)") 1 09, iE 

意 /是 迭代 次 数 的 一 个 下 限 ， 并 且 实 际 上 是 相当 宽松 的 ， 即 估计 一 个 好 模型 所 需 
的 迭代 次 数 通 常 比 J ARAB BOPP 。 

由 上 面 的 分 析 容 易 看 出 ， 若 要 提高 基于 RANSAC 的 算法 在 带 噪 场景 中 的 效率 ， 
需要 找到 一 个 采样 策略 ， 对 该 策略 而 言 P(1) 要 比 均匀 采样 中 的 大 。 此 方法 在 参 
考 文献 [393, 533, 483] 中 得 到 改进 ， 在 参考 文献 [393, 533] F, BETH 
(13.1) 中 的 先 验 项 ， 从 而 改善 了 概率 特性 ， 同 时 式 中 的 前 一 项 假设 了 内 点 相互 之 
间 的 距离 比 外 点 更 加 接近 ， 后 一 项 采用 似 然 匹 配 法 来 定义 采样 策略 。 男 一 方面 ， 参 
考 文献 [483] 中 假设 通过 改进 的 似 然 项 P(I|s)， 能 从 数据 元 余 中 得 到 一 个 较 小 
的 子 集 。 本 文中 ,我们 定义 了 一 个 采样 策略 ， 它 利用 特定 模型 的 属性 来 改进 这 个 似 
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设 2 为 2 中 元 素 组 成 的 所 有 1/ 阶 子 集 的 集合 。 对 于 任意 ze YZ', WIL = IL. 
且 0,=1-L。 设 0 是 定义 在 Z 上 的 属性 ，Q(z) 是 一 个 二 元 变量 ， 当 且 仅 当 z 满 
足 属 性 0 时 ，Q@(z ) 为 真 。 进 一 步 设 Z (0) EZ, CEWE O 的 Z 中 的 所 有 元 素 z 
的 集合 Z(0)={z eZ10 (2) =1}. 

由 式 (13.1) MRE Z (Q) 的 定义 ， 从 集合 2Z (Q) 中 随机 采样 一 个 自由 外 
点 集 s' 的 概率 为 




















其 中 P(L) © PO,IQG))PG) (13.2) 
" P(LAQ(S)) = P(L,)PCQG^) Uy) 
J ~ P(1,)PCQG ) II) + PO.) P(Q(s') 10,) 
P(I)' 
` | 13.3 
POG) 104) dn 


P(I) «(1 -P(1)) P(QG)IL) 


Tn fh SCR M 时 所 需 的 2 中 元 素 的 最 小 数目 为 mw ， 则 要 以 概率 o 获得 自由 
外 点 集 的 迭代 次 数 下 限 为 /(1,0) = | In(1-p)/In(1 - P(L) ") |。 对 于 一 个 给 定 的 模 
型 ,最 佳 采 样 策 略 是 选 遍 7 和 0 后 (1, Q) 最 小 的 策略 。 实 际 上 ， 可 以 选择 满足 
J»»J(1,0) , Bl mlogP(1,) »» mlogP(17.) 的 任意 1 和 0。 该 观测 值 和 式 (13.2) 共同 
说 明 所 选 属性 O 应 该 满足 PCQG) |) >>P(0(s') 10,)。 下 一 节 ， 我们 将 列举 数据 
驱动 单 应 性 估计 问题 ， 从 而 说 明 利 用 模型 相关 属性 来 实 如 何 实现 高 效 采 样 策略 。 


13.4 ” 共 线 约束 条 件 下 的 高 效 单 应 性 估计 








回想 13.2 节 ， 给 定 一 对 传感器 (C, C), AHERE RANSAC 算法 从 2 中 每 次 
均匀 采样 四 对 点 ， 从 而 得 到 单 应 性 矩阵 五 ;的 估计 。 在 本 章 的 剩余 部 分 ,我们 将 这 种 
算法 称 为 RANSAC4。 如 果 v 表示 Z, 中 内 点 的 比例 ， 即 P (1) =v, WAER p 寻找 
样本 中 的 自由 外 点 集 所 需 的 迭代 次 数 下 限 为 Jiawsaes = [In(1 -p)/In(1 —7*) ]; 

考虑 Z; 中 所 有 三 阶 子 集 (三 元 组 ) 构成 的 集合 Z 我 们 知道 共 线 性 在 单 应 性 
变换 后 保持 不 变 ， 即 某 传感器 中 共 线 点 的 对 应 点 也 是 共 线 的 。 我 们 将 这 个 特性 ( 共 
线 不 变性 ) 称 为 Qu. 将 (Q,). 定义 为 满足 0, 的 所 有 三 元 组 的 集合 ， 即 这 些 三 元 组 
中 的 点 在 两 个 传感器 中 都 是 共 线 的 。 注 意 对 于 任意 三 元 组 TeZ,P(Qn(7) ll) =1。 
此 ， 由 公式 (13.2), A ZZ(Q4) 集 合 中 均匀 采样 一 个 外 点 自由 的 三 元 组 T 的 概率 
H PG) 27 D? € (1 -wr)P( O07T) |0;) 1] 

方程 中 的 PCQ,CT) | 0) 项 表示 由 一 个 以 上 共 线 外 点 组 成 的 三 元 组 的 概率 。 通 
过 寻找 三 个 共 线 随机 点 的 概率 来 估算 它 。 实 际 上 ， 由 于 噪声 或 者 传感器 的 有 限 分 辩 
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率 ， 三 个 内 点 甚至 都 不 可 能 准确 地 共 线 。 因 此 ， 如 果 三 个 点 形成 的 三 角形 中 最 短 的 
高 和 最 长 边 的 比值 远 小 于 适当 定义 的 阔 值 y>， 则 称 这 三 点 共 线 。 我 们 假设 OE 表示 
三 角形 中 的 最 长 边 ， 这 个 假设 并 不 失 一 般 性 〈 如 图 13.1) 。 因 此 ， 第 三 点 必须 在 
OAE 区 域 中 (否则 OE 将 不 是 所 形成 三 角形 中 的 最 长 边 ) 。 给 定 y， 模 型 中 最 短 的 
高 定义 为 h=y|OE|。C 是 弧 OA 上 的 一 点 ,使 得 d( OE，C) = 站， 则 第 三 点 必须 位 
T OCTE 区 域 中 。 因 此 由 图 13.1， 三 个 随机 点 共 线 的 概率 估算 为 (AOTE -AOGA + 
AGFT)/( AOAE - AOAM) 二 y/w/3 -V3/4， 其 中 AX 表示 区 域 X 的 面积 。 另 外 我 们 
知道 在 单 应 性 中 三 元 组 的 顺序 应 该 保持 不 变 ， 即 中 间 的 点 在 变换 后 依然 在 中 间 。 
此 ， 随 机 三 元 组 共 线 的 概率 定义 为 PCQCT)/0,) — y/ [3(m73) - 4874] =0. 54y. 
HE, P(1,) 2v 7 [v «0.54y(1-»)], 


























对 于 y 值 ， 只 要 y > 002, Bl 
数据 中 至 少 有 2% 的 内 点 ， 本 方 


我 们 知道 单 应 性 估计 仅仅 A 
需要 两 个 非 线 性 三 元 组 (六 对 -~ 
点 ) 。 因 此 在 本 章 的 剩余 部 分 改 EN 
进 的 RANSAC， 称 为 约束 随机 EN 
采样 一 致 性 (CONSAC ) ， 每 次 Lo x 
BAR ZG, Qu) 集中 均匀 采 ~ 
样 两 个 三 元 组 ， 下 限 Jconsac = 
Un Gp -POSY)) / EM 
显然 ， 对 于 所 有 的 P( (中,) = Too T 
v >0. 54y, Joonsac <Jransacro 在 = Vm pull 
: 们 的 方案 选 为 0.04。 一] 
我 们 的 方案 中 ,，y 值 选 为 0.04 WW / 
I 








案 就 会 表现 比较 好 的 性 能 。 表 ”图 13.1 该 图 说 明 对 均匀 采样 中 随机 的 三 点 而 言 ， 
13.1 是 取 不 同 的 > f (p = ”如 何 估计 它们 共 线 的 概率 。A 为 两 个 半径 为 OF， 
0.999) 时 Joonsac 和 Jransace 的 圆心 分 别 为 0 入 的 圆 的 交点 








值 。 可 以 看 出 ， 基 于 三 元 组 算 
法 的 理论 界限 按 顺序 优 于 标准 算法 。 在 第 13.6 节 给 出 的 定量 分 析 结 果 表 明 本 方案 的 实 
际 影响 更 加 显著 。 











表 13.1 RANSAC 算法 迭代 次 数 的 下 限 


内 点 比例 > 2. 596 5% 10% 20% 25% 





JRANSAC4 17683850 1105237 69074 4313 1764 




















J consac 13200922 206261 3219 46 9 
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13.5 镜头 畸变 估计 


在 现实 场景 中 镜头 畸变 是 常见 问题 ， 但 是 在 目前 的 讨论 中 我 们 并 没有 考虑 它 对 
单 应 性 估计 的 影响 。 如 果 建 模 不 好 的 话 ， 可 能 会 产生 错误 的 模型 估计 。 在 现代 系统 
中 广泛 应 用 的 高 分 辩 率 传感器 中 ， 这 种 影响 尤其 明显 。 考 虑 到 单 应 性 估计 中 的 这 些 
影响 ， 我 们 使 用 一 个 简单 的 单 参数 畸变 模型 : 

f(r) =1 +k" (13.4) 

其 中 , r+ 是 所 考虑 的 点 到 畸变 中 心 (通常 假设 为 图 像 中 心 ) 的 距离 ，k 是 未 知 
的 镜头 畸变 参数 。 

当 存在 镜头 畸变 时 ， 可 以 利用 该 模型 来 估计 单 应 性 ， 一 种 极 有 效 的 方法 是 利用 
每 个 可 能 的 k 值 运行 基于 RANSAC 的 校准 算法 ， 然 后 选择 适当 的 < 值 ， 使 其 单 应 
性 满足 最 多 的 数据 点 。 在 镜头 畸变 时 ， 我 们 考虑 对 CONSAC 算法 进行 一 次 迭代 。 
这 时 ， 内 点 的 数目 V 是 畸变 参数 5， 判决 内 点 的 浆 值 >， 和 用 于 计算 单 应 性 的 一 对 
均匀 采样 三 元 组 TO 的 函数 广 























N zf(k,vr, T ) (13.5) 

假设 7 是 固定 的 ， 则 内 点 的 数目 为 N=f (x，7'2)。 用 多 对 均匀 采样 三 元 组 进 
行 多 次 迭代 ， 所 得 的 内 点 数目 为 

N zmaxf( «,T;) (13.6) 

相应 的 满足 内 点 数目 最 多 的 单 应 性 就 是 所 估计 的 单 应 性 矩阵 。 显 而 易 见 ， 当 增 
加 三 元 组 的 对 数 (增加 CONSAC 迭代 ) WY, 的 值 也 就 增加 了 。 而 且 ， 用 上 U 代表 
三 元 组 对 的 全 集 ， 由 这 个 集合 得 到 N 的 过 程 是 一 个 确定 性 连续 函数 (由 于 内 点 的 
数目 只 能 是 整数 ， 所 以 该 函数 在 整数 值 上 连续 ) 。 

为 了 满足 正确 计算 的 需求 ， 实 际 上 只 能 希望 所 选 的 三 元 组 对 应 的 集合 非常 接近 
其 全 集 。 除 非 三 元 组 对 的 全 集 很 小 或 者 内 点 三 元 组 的 比例 较 大 ， 否 则 取 近 似 值 是 不 
准确 的 。 因 此 ， 从 备 选 畸变 参数 值 表 中 选择 « 值 ， 满 足 由 式 (13.6) 得 到 的 内 点 
最 大 数目 W 值 ， 这 样 将 会 得 到 真实 场景 中 畸变 参数 的 非 鲁 棒 性 估计 。 

为 此 ， 我 们 提出 了 一 个 两 步 法 ， 它 不 仅 能 够 对 畸变 参数 产生 和 鲁 棒 性 的 估计 结 
果 ， 而 且 具 有 较 高 的 效率 。 在 第 一 阶段 ( 粗 采 样 ) ， 对 畸变 参数 可 能 值 的 解 空 间 进 
行 粗 采样 。 对 每 一 个 参数 值 运行 CONSAC 算法 从 而 得 到 内 点 数 。 内 点 数 越 多 ， 相 
应 的 畸变 参数 值 越 能 更 好 地 反应 数据 特性 。 但 是 ， 如 先前 讨论 的 ， 由 于 CONSAC 
的 迭代 次 数 有 限 ， 所 以 这 样 不 可 能 提供 畸变 参数 的 鲁 棒 性 估计 。 因 此 ， 接 下 来 需要 
改进 。 

在 第 二 阶段 ， 我 们 把 内 点 集 与 第 一 阶段 产生 的 最 优 畸 变 参 数 备 选 值 相对 应 。 这 
里 ,我 们 不 使 用 在 三 元 组 对 空间 上 的 RANSAC 算法 ,而 是 利用 这 些 内 点 集 (其 中 
大 量 的 内 点 满足 « 值 ) 重新 计算 单 应 性 ， 从 而 得 到 一 个 改进 的 « 值 样本 空间 。 直 
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观 上 ， 对 应 于 理想 的 内 点 集 能 取代 第 一 阶段 的 随机 采样 三 元 组 对 ， 从 而 能 更 好 地 估 
计 « 值 。 改 进 阶 段 中 的 迭代 次 数 被 最 优 内 点 值 和 备 选 畸 变 参 数值 的 数目 所 限制 。 通 
常 本 阶段 的 迭代 总 次 数 甚至 远 小 于 第 一 阶段 中 对 一 个 k 值 运行 CONSAC 算法 所 需 
的 迭代 次 数 。 


13.6 成 果 与 应 用 


在 本 节 中 ， 我 们 利用 综合 数据 和 原始 数据 给 出 了 本 算法 的 定性 结果 和 定量 结 
果 。 这 些 原始 数据 来 自 一 个 多 传感器 监控 系统 ， 它 是 我 们 在 佛罗里达 州 的 一 个 港口 
开发 部 署 的 一 个 系统 。 


13.6.1 定量 评价 


我 们 利用 综合 数据 来 评估 本 方法 ， 这 些 数据 包括 外 点 比例 、 空 间 品 声 的 方差 和 
交通 流量 ， 并 将 它们 和 标准 RANSAC 进行 比较 。 图 13. 2 为 这 两 种 算法 关于 上 述 参 
数 的 执行 速度 和 估计 误差 的 比较 图 。 由 图 中 可 以 看 出 该 算法 中 比 标准 的 RANSAC 
明显 有 效 ; @ 可 以 处 理 数 据 中 的 大 部 分 外 点 ; 四 对 交通 流量 和 空间 噪声 具有 重 
EE, 
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图 13.2 就 外 点 比例 (上 面 一 行 ) 、 空 间 噪 声 的 方差 (左下 ) 、 和 交通 
流量 (AB), ， 将 所 提出 的 算法 与 基于 RANSAC 的 算法 进行 比较 
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13.6.2 半 监 控 传 感 器 的 校准 


当场 景 中 的 地 形 没 有 太 多 的 本 地 化 特征 或 者 可 区 别 特征 时 ， 即 便 人 工 的 传 感 带 
校准 或 者 地 理 注册 也 是 挑战 。 一 种 解决 方法 是 使 专用 的 移动 台 CA, "ES, HEAR) 
在 传感器 视 场 内 移动 ， 同 时 记录 它们 的 地 理 位 置 。 参 考 文献 【441] 给 出 了 一 种 实 
用 化 系统 ， 它 可 以 在 大 型 视觉 传 感 网 中 利用 这 种 方法 来 建立 和 维护 地 理 注 册 。 我 们 
应 该 注意 到 在 非 受 控 环境 中 ， 既 不 是 场景 中 的 所 有 目标 都 发 送 地 理 位 置 数据 ， 也 不 
是 发 送 这 些 数据 的 所 有 目标 都 必须 出 现在 一 个 以 上 的 传感器 中 。 因 此 目标 数据 和 地 
理 位 置 数据 之 间 并 不 存在 一 一 对 应 关系 。 事 实 上 ， 按 照 我 们 的 经 验 ， 它 们 之 间 随 机 
对 应 的 概率 (RUN) 远 远大 于 确定 对 应 的 概率 (通常 是 噪声 数据 占 总 数据 的 8596 
以 上 ) 。 

实验 中 ， 我 们 使 用 一 个 给 定 模 型 的 GPS 船只 。 这 样 另外 给 出 了 具有 应 用 领域 
特征 的 约束 条 件 〈 先 验 条 件 ) ， 有 利于 提高 采样 机 制 的 效率 ， 从 而 把 受 控 船 只 的 地 
理 位 置 和 场景 检测 值 相 匹 配 ， 并 估计 地 理 注册 情况 。 运 动 方向 就 是 这 样 的 一 种 约束 
条 件 。 当 一 个 目标 在 摄像 头 周 围 沿 顺 时 针 方向 移动 时 ， 其 对 应 图 像 在 视图 中 由 左 到 
右 移动 ， 反 之 亦 然 。 充 分 利用 运动 方向 这 一 约束 条 件 ， 可 以 排除 朝向 或 远离 摄像 机 
的 运动 。 因 此 ，GPS 船只 应 沿 着 摄像 机 的 FOV ( 视 场 ) 水 平移 动 。 为 了 形成 连续 
路 径 ， 它 应 遵循 锯齿 形 曲 线 (如 图 13.3)。 在 此 条 件 下 ， 利 用 运动 方向 约束 可 以 排 
除 掉 一 半 的 异常 视点 。 我 们 知道 运动 方向 约束 条 件 在 传统 的 四 点 RANSAC 算法 中 
也 是 有 用 的 。 沿 着 摄像 机 视 场 的 水 平 运动 为 基于 三 元 组 的 算法 提供 了 额外 的 好 处 。 
由 于 当 GPS 船只 沿 着 摄像 机 的 FOV ( 视 场 ) 水 平移 动 时 ， 运 动 方向 约束 条 件 最 有 
效 ， 所 以 GPS 船只 的 轨迹 被 设计 成 水 平 的 。 因 此 ， 画 一 些 垂 直线 来 增加 与 船只 轨 
迹 相 交 的 机 会 ， 从 而 得 到 可 能 的 共 线 内 点 三 元 组 (如 图 13.4) 。 我 们 期 望 ， 任 何 一 
条 垂直 线 与 GPS 轨迹 水 平面 相交 的 概率 远 远 大 于 它 与 任何 异常 目标 的 非 水 平 轨迹 
相交 的 概率 。 假 设 异 常 目标 的 轨迹 方向 非 均 匀 分 布 ， 异常 轨迹 的 有 效 平均 水 平 投影 



































图 13.3 半 监 控 传 感 涡 校准 : 左 图 为 一 个 典型 的 GPS 跟踪 ， 为 了 更 好 地 校准 ， 将 
其 设计 为 水 平 的 ; 右 图 通过 所 提出 的 算法 得 到 了 港口 中 四 个 摄像 机 的 视 场 
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是 | cos6d9/| d9 = 27s 。 因 此 ， 在 GPS 船只 的 水 平 运动 期 间 ， 所 提出 的 方法 获 


得 三 元 组 内 点 的 概率 比 获得 三 元 组 外 点 的 概率 要 大 mw/2。 如 图 13. 3 所 示 为 利用 本 
方法 ， 对 四 个 高 分 率 传 感人 (4000x640) 在 港口 进行 地 理 注 册 的 结果 。 在 港口 的 
卫星 快照 中 ,估计 的 视 场 之 间 有 重合。 当 距 离 摄 像 机 1500m 时 ， 最 大 误差 距离 是 
1$m。 传 感 器 的 公共 视 场 大 约 在 4k? 内 。 我 们 认为 地 理 注册 误差 主要 是 由 于 跟踪 
算法 对 目标 的 不 准确 定位 引起 的 。 

Am woth ae ee 











图 13.4 目标 跟踪 的 摄像 机 视图 的 快照 。 在 利用 所 提出 的 算法 进行 
匹配 时 ， 在 图 中 覆盖 了 一 些 竖 线 将 图 分 成 了 很 多 段 





13. 6.3 无 监控 传感器 的 校准 


我 们 现在 说 明 本 方法 在 无 监控 情况 下 的 鲁 棒 性 ， 这 时 使 用 完全 未 受 控制 的 目标 
来 实现 校准 。 这 种 情况 下 的 例子 包括 使 用 可 广播 自动 识别 系统 (AIS) 信息 (在 某 
些 情 况 下 由 港口 当局 授权 ) 的 船只 、 港 口中 可 观测 目标 方位 和 距离 的 雷达 
(RADAR) 以 及 带 有 无 线 射 频 识 别 标签 (RFID). ERRA 。 无 监控 传感器 校 
准 的 另 一 个 例子 是 视 场 重 妥 情况 下 的 多 传 感 需 校准 ， 这 种 方法 取决 于 对 目标 进行 观 
测 。 在 实验 中 ， 我 们 使 用 雷达 (RADAR) 信息 来 校准 安装 在 港口 的 高 分 辨 摄像 机 。 
图 13.5 (Æ) 所 示 为 雷达 跟踪 。 右 图 所 示 为 使 用 本 校准 方法 估计 的 摄像 机 的 重生 
视 场 。 和 半 监 控 校准 一 样 ， 当 距离 摄像 机 1500m 时 的 最 大 误差 为 13m。 经 过 对 目 
标 持续 Smin 的 观测 ， 本 章 提 出 的 方法 获得 了 针对 两 个 可 视 传感器 校准 的 结果 ， 如 
图 13. 6 所 示 。 佑 计 的 单 应 性 与 参考 文献 [483] 中 的 结果 一 致 ， 在 该 参考 文献 中 ， 














到 13.5 无 监控 传感器 校准 : (FE) 港口 中 的 雷达 跟踪 ; Ch) 利用 所 提出 的 
方法 得 到 的 两 个 高 分 辩 率 传 感 咒 的 视 场 
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一 方面 对 同一 视频 序列 按 小 时 进行 剪辑 ， 并 对 剪辑 片段 中 的 目标 进行 观测 ， 男 一 方 
面 对 两 幅 图 像 中 的 特征 点 进行 人 工 视觉 匹配 ， 利 用 获得 的 目标 观测 值 和 人 工 匹配 结 


果 进 行 单 应 性 佑 计 。 


图 13.6 MIERAMI 











机 装置 ; (AP) 进行 持续 Smin 的 目标 观测 ， 


13.7 结论 


本 章 提 出 了 一 种 基于 数据 驱动 的 多 传感器 校准 方案 ， 


曾 过 单 应 必 




















E 估 计 得 到 了 变形 的 图 像 


这 种 方案 具有 高 效 性 和 重 


棒 性 。 该 方案 利用 了 模型 特有 的 约束 条 件 ， 从 而 提高 了 有 外 点 时 的 模型 估计 效率 ， 
单 应 性 变换 下 的 共 线 不 变性 就 是 一 种 典型 的 约束 条 件 。 当 场景 中 含有 大 量 外 点 比 
例 、 空 间 噪声 的 方差 以 及 交通 流量 时 ， 本 音 所 提出 的 算法 利用 综合 数据 和 原始 数据 
进行 传感器 校准 ， 这 种 解决 方案 的 鲁 棒 性 和 高 效 性 得 到 了 进一步 证 实 。 
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摘要 WATERED SAY SAE, EANA T 238 NUS Beto BRL AR SCY ET 
理 和 应 用 开发 。 提 出 利用 基于 模型 的 软件 工程 概念 来 实现 更 加 统一 和 简化 的 设计 方 
法 。 实 际 上 ， 基 于 模型 的 系统 开发 概念 为 平台 专用 代码 的 生成 提供 了 高 级 系统 函数 
和 工具 集 。 本 章 概述 了 这 种 架构 如 何在 不 同 层次 下 实现 模型 集成 的 ， 例 如 ， 在 特定 
应 用 中 ， 利 用 低层 的 传 感 数据 ， 以 及 高 层 基于 知识 的 模型 进行 高 级 情景 检测 、 分 类 
和 表示 。 所 提出 的 方法 将 被 应 用 在 机 场 公共 环境 的 安全 监控 中 。 











14.1 简介 


近年 来 ， 传 感 网 中 的 分 散 信息 处 理 得 到 了 很 多 人 的 关注 。 特 别 地 ， 在 处 理 复杂 
的 数据 结构 、 数 据 融合 和 系统 设计 方面 ， 包 含 图 像 传感器 的 传 感 网 给 系统 工程 师 们 
提出 了 严峻 的 挑战 。 由 于 近年 来 技术 的 进步 ， 紧 凑 的 硬件 和 信息 处 理 单元 (用 于 
基本 识别 和 预 处 理 ) 结合 在 一 起 所 形成 的 图 像 传感器 已 经 在 市 场 上 得 到 应 用 。 这 
就 是 所 谓 的 智能 摄像 机 系统 ， 它 们 非常 适合 脱 入 在 传 感 网 中 。 

术语 “智能 摄像 机 ”是 指 一 个 自 包 含 、 独 立 的 视觉 系统 。 该 系统 包含 一 个 图 
像 传感器 和 一 个 具有 图 像 处 理 功能 的 单元 ， 其 中 败 像 传感器 内 置 在 工业 视频 摄像 机 
壳 体 中 ， 该 摄像 机 含有 所 有 必要 的 通信 接口 。 尽 管 处 理 能 力 有 限 ， 这 种 系统 已 经 广 
泛 应 用 在 各 个 领域 ， 比 如 质量 检测 、 非 接触 式 测 量 、 安 全 监控 、 条 形 码 和 字符 识 
别 ， 或 自动 捡 放 。 

在 几 个 单元 独立 工作 的 情况 下 ， 分 布 式 视 觉 技 术 的 应 用 尤其 适合 智能 摄像 机 。 
这 类 应 用 的 例子 如 ， 生 产 线 上 的 问题 检测 过 程 中 要 求 装配 机 在 工作 区 域内 具有 分 布 
式 的 观察 点 ， 或 者 大 范围 区 域 中 的 运动 和 安全 监控 。 这 样 的 网 络 ， 也 称 为 视觉 传 感 
网 ， 其 中 ， 每 个 节点 提取 局 部 图 像 特征 ， 这 些 特 征 在 经 过 网 络 融合 后 将 用 于 解决 更 
高 级 别 的 计算 。 这 些 高 级 别 计算 包括 摄像 机 干扰 检测 ， 跨 越 多 个 视 场 的 跟踪 ， 目 标 
识别 ,或 用 于 从 观察 场景 中 提取 三 维 信息 的 大 范围 立体 视觉 。 

此 外 ， 对 于 特定 的 应 用 ， 比 如 ， 对 于 安全 监控 和 运动 跟踪 ， 智 能 摄像 机 需要 对 
获取 的 图 像 进行 准 实时 处 理 。 而 且 ， 需 要 将 运算 结果 高 效 存储 ， 从 而 实现 高 级 查 
询 ， 例 如 查询 特定 人 或 物 的 行为 。 为 了 避免 不 必要 的 网 络 流量 并 且 减 少 响应 时 间 , 
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每 个 传 感 节点 应 该 独立 承担 一 定 的 计算 量 。 因 此 ， 单 个 智能 摄像 机 能 够 完成 干扰 检 
测 ， 但 是 决策 推理 需要 在 全 局 系统 中 完成 。 一 些 高 级 别 的 问题 ， 比 如 “摄像 头 是 
被 干扰 了 ， 还 是 受到 外 边 雾 气 的 影响 ?” 或 者 “ 哪 种 突 发 情况 是 安全 的 ， 哪 种 情况 
是 被 烟 筋 阻挡 的 ?”， 只 能 按 这 种 方式 进行 推断 。 
智能 摄像 机 用 来 分 析 处 理 分 散 的 可 视 化 数据 ， 仅 仅 代 表 一 个 特定 的 传感器 节 
点 ， 而 传 感 网 是 一 个 更 广义 的 概念 ， 用 于 处 理 所 有 各 种 分 散 的 传 感 数 据 。 由 于 无 线 
通信 协议 在 传感器 节点 之 间 的 广泛 应 用 ， 如 蓝牙 或 ZigBee， 通常 将 传 感 网 称 为 无 线 
传 感 网 (WSN) 5" 。 在 复杂 变化 的 网 络 环境 中 ， 传 感 网 被 刻画 为 自主 分 布 式 分 析 
处 理 系 统 。 传 感 网 最 初 是 在 军事 研究 项 目 中 被 提出 和 开发 的 ， 如 智能 灰尘 项 目 ， 现 
在 已 经 广泛 地 应 用 在 环境 监测 中 。 

当前 ， 由 于 处 理性 能 的 提高 和 硬件 资源 成 本 的 下 降 ， 可 以 将 大 量 不 同 的 传感器 
进行 组 网 ， 从 而 实现 现场 监控 。 在 所 有 的 传 感 信息 中 ， 网 络 上 的 每 种 传感器 只 能 提 
供 其 中 一 小 部 分 的 预 处 理 信 息 。 本 章 主要 针对 这 类 系统 的 开发 给 出 规范 简化 的 设计 
准则 。 在 基于 模型 的 开发 过 程 中 ， 所 提出 的 方法 要 求 把 系统 的 功能 模型 从 低层 实现 
的 具体 情况 中 分 离 出 来 。 





























14.2 ELE SEU. 机 场 公共 监控 


本 节 束 大 型 智能 摄像 机 和 传 感 网 的 特点 ， 举 例 说 明了 系统 开发 所 面临 的 挑战 。 
目前 该 网 络 主要 应 用 在 公共 监控 中 ,尤其 是 人 群 密度 估计 。 机 场 的 战略 安全 规划 中 
就 应 用 了 这 种 人 群 密度 估计 。 机 场 中 安装 了 大 约 700 全 摄像机， 它们 通过 光纤 网 络 
被 连接 到 中 央 控 制 室 (CCR)。 监 控 系 统 基于 一 个 定义 了 感 兴趣 区 域 (ROI) 的 全 
局 模型 (CGM) ， 包 括 感 兴趣 区 域 (ROIs) 内 智能 摄像 机 和 其 他 传感器 的 定位 。 摄 
像 机 能 独立 完成 自 校 准 (第 9 音 )、 流 控制 和 密度 估计 以 及 干扰 检测 。 如 图 14. 1 
所 示 ， 摄 像 机 的 输出 是 一 个 运动 和 密度 信息 的 矢量 场 ， 并 被 映射 在 GM (全 局 模 
型 ) 上 。 

在 这 种 高 安全 性 应 用 中 ， 既 利用 了 摄像 机 内 的 干扰 检测 技术 也 利用 了 全 局 干扰 
检测 。 摄 像 机 内 的 干扰 检测 技术 用 于 检测 摄像 机 是 否 发 生 了 移动 ， 或 者 它 的 视 场 是 
否 被 遮挡 ， 比 如 : 摄像 机 被 覆盖 、 镜 涉 上 喷 酒 了 东西 或 筋 气 谈 挡 。 这 些 信息 被 发 送 
到 的 CCR (中 央 控 制 室 )。 全 局 干扰 检测 技术 使 用 GM (全 局 模型 来 完成 干扰 的 
高 级 推理 。 在 干扰 数据 集中 融合 后 ， 按 照 摄 像 机 的 实际 位 置 利用 高 级 推理 来 得 到 不 
同 摄像 机 所 获取 内 容 之 间 的 关联 性 。 如 果 两 个 相 邻 的 户外 摄像 机 均 检 测 到 雾 ， 则 有 
很 大 的 可 能 性 是 真正 的 雾 ， 但 是 如 果 只 有 其 中 一 个 检测 到 筋 ， 则 可 能 是 和 干扰。 图 
14.2 显示 了 ， 在 预定 义 的 ROI 中 ， 对 智能 摄像 机 进行 组 合 的 情况 。 

在 图 14.2 中 ， 我 们 能 明显 地 看 出 系统 的 复杂 度 ， 因 此 全 局 的 应 用 开发 主要 取 
决 于 GM (全 局 模型 ) ， 而 并 不 直接 涉及 单独 的 智能 摄像 机 或 者 传感器 的 输入 。 
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图 14.1 某 一 个 摄像 机 内 所 产生 的 运动 和 密度 信息 的 矢量 场 





智能 摄像 机 WERE 智能 摄像 机 


到 14. 2 FES ROI 中 的 nn 个 摄像 机 所 产生 的 运动 和 密度 信 | 
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14.3 相关 研究 


智能 传感器 网 络 仍然 是 一 个 热门 的 研究 领域 5 。 这 些 研 究 涵盖 很 多 方面 : 包 
括 通过 引入 通用 网 络 协议 “7 进行 网 络 信息 流 管理 ;以 分 层 方 式 表 示 视 场 以 便 进行 
高 效 的 路 径 查 询 :… 2; ， 从 而 对 视 场 重叠 的 摄像 机 间 的 特征 进行 有 效 的 匹配 5227 ; 
设计 特定 的 查询 机 制 和 数据 库 模型 ， 使 它们 能 够 将 高 层 特征 当 作 简 单 特征 的 组 合 进 
行 处 理 ' ”1 Akdere 等 学 者 的 方案 "描述 了 用 于 三 维 感知 的 视觉 传 感 网 络 中 的 数 
据 访 问 和 查询 技术 。 在 参考 文献 [9] 中 ， 对 所 收集 的 数据 或 所 感知 的 数据 实现 特 
定时 空 下 的 四 维 可 视 化 。 通 过 一 个 特殊 的 多 维 数据 集 查 询 接口 进行 数据 访问 ， 该 接 
口 提供 了 类 SQL 标记 符 的 说 明 性 查询 。 查 询 被 编译 成 可 执行 计划 ， 然 后 分 配给 各 
节点 去 执行 。 查 询 技术 为 能 量 节 省 、 数 据 分 发 、 网 路 负载 和 容错 能 力 提 供 了 优化 机 
会 。 大 体 来 讲 ， 本 系统 可 以 像 分 布 式 数 据 库 系统 一 样 工作 ， 类 似 TinyDB ， 请 见 参 
考 文献 [348 ] ， 它 在 提供 必要 硬件 抽象 的 所 有 节点 上 都 设置 了 运行 次 数 。 情 景 识别 
网 络 (CRN) 工具 箱 描述 的 是 一 个 C ++ 框架 ， 该 框架 在 可 配置 的 运行 模块 上 集成 
了 硬件 抽象 、 滤 波 算法 、 特 征 提取 组 件 和 分 类 器 ， 用 于 支持 情景 识别 应 用 的 快速 开 
发 例如， 参考 文献 [44] 。 特 别 地 ， 人 们 设计 了 CRN 工具 箱 ， 使 得 这 些 应 用 能 够 
i E Sc FF POSIX 运行 环境 的 能 入 式 系 统 得 到 实现 。 

上 述 的 系统 和 方法 ， 并 不 依赖 一 个 形式 化 的 元 模型 ， 因 此 不 能 完全 从 模型 驱动 
的 系统 开发 方法 中 受益 '”1 ， 尤 其 是 ， 形 式 化 元 模型 可 以 通过 交换 生成 器 模板 实现 
包括 CRN 工具 箱 的 各 种 平台 的 代码 生成 。 















































14.4 ”模型 驱动 开发 方法 


如 今 ， 诸如 Java EX C ++ 这 样 的 高 级 编程 语言 可 以 实现 众多 异 构 操 作 系 统 的 程 
序 代码 的 编译 和 执行 。 这 些 目标 系统 包括 PC 机 、 移 动 设备 和 髓 入 式 控制 器 。 模 型 
驱动 开发 (MDD) 方法 详细 阐述 了 高 级 编程 语言 的 主要 思想 ， 从 而 将 问题 从 实施 
细则 中 抽象 出 来 。 为 了 解决 非 标准 化 的 软件 制造 所 带 来 的 问题 ， 我 们 利用 功能 模型 
来 生成 代码 ， 而 不 是 为 不 同 的 平台 分 别 编写 代码 。 

模型 驱动 开发 (MDD) 方法 依靠 系统 功能 模型 的 准确 描述 和 特定 平台 代码 的 
生成 。MDD 方法 之 后 ， 一 种 最 著名 的 方法 是 由 对 象 管理 组 织 (OMG) 于 2001 年 
引入 的 模型 驱动 架构 (MDA)S。MDA 定义 了 关注 点 分 离 ， 利 用 分 离 模型 来 描述 系 
统 能 、 技 术 和 执行 的 关注 点 。 











”对 象 管理 组 织 (OMG) 的 数据 驱动 架构 。http: //www. org/mda/ 一 一 作者 注 。 
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功能 模型 指 的 是 平台 独立 模型 (PIM)'*1， 它 描述 了 系统 的 抽象 功能 ， 而 特定 平 
台 模 型 (PSM) 则 描述 了 技术 关注 点 ， 如 图 14. 3 所 示 。MDA 提出 了 一 种 软件 开发 方 
法 ， 这 种 方法 不 再 直接 为 每 一 个 不 同 的 平台 编写 代码 ， 而 是 通过 把 抽象 功能 模型 的 解 
释 与 变换 和 程序 代码 生成 相 结 合 来 实现 软件 开发 。 平 台 被 定义 为 专用 硬件 (例如 ， 
NI1722 智能 摄像 机 ，Crossbow Mote) 或 者 运行 在 目标 硬件 (例如 ，Tiny0S 或 者 NI 
Lab View 实时 模块 9) 上 的 软件 框架 。 目 标 平台 定义 了 执行 生成 代码 的 目标 位 置 。 

















图 14.3 MDA 的 三 级 架构 








图 14. 3 显示 了 一 个 实例 构架 图 ， 图 中 定义 了 干扰 检测 中 摄像 机 和 温 湿度 传 感 
器 之 间 的 依赖 性 。 为 了 创建 和 修改 实例 ， 我 们 必须 知道 可 用 传感器 之 间 的 依赖 性 。 














名 ”美国 国家 仪器 的 LabVIEW 实时 . http: //sine. ni. com/nips/cds/view/p/lang/en/nid/13742 。 
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除 此 之 外 ， 管 理 系统 中 的 数据 流 也 很 重要 。 数 据 流 的 硬件 独立 模型 说 明了 如 何 由 选 
举 算法 生成 干扰 决策 。 图 14. 4 所 示 为 基于 Eclipse 的 工程 环境 ， 它 允许 用 户 为 特定 
的 实例 来 定义 数据 流 模 型 。 图 14. 4 的 实例 模型 ， 来 自 五 个 摄像 机 的 数据 都 被 合并 
到 评估 输入 数据 的 表决 器 中 ， 表 决算 法 将 判定 输入 数据 是 否 为 干扰 。 基 于 MDA 
(模型 驱动 构件 ) 方法 的 平台 独立 模型 无 需 考虑 不 同 的 摄像 机 硬件 ， 实 现 了 对 复杂 
实例 的 简单 建 模 。 图 14. 4 中 的 五 个 摄像 机 可 以 使 用 完全 不 同 的 硬件 实现 。 
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图 14.4 硬件 独立 的 数据 流 模 型 进行 干扰 判决 的 例子 


由 于 复杂 的 系统 中 存在 着 众多 不 同 的 数据 源 ， 因 此 需要 将 可 用 数据 进一步 分 
类 。 这 里 我 们 参考 Baldauf ^^ 和 Strang’?! Or BAY OEE , 他 们 提出 了 一 个 一 致 情景 
模型 来 对 数据 源 进 行 分 类 。 参 考 文献 [42] 和 [512 ] 综 述 了 各 种 情景 模型 ， 履 盖 从 简 
单 的 基于 关键 值 对 的 模型 到 复杂 的 本 体 模型 。 

参考 文献 [513] 中 所 描述 的 作为 Co01 本 体 的 一 部 分 的 Aspect- scale- context 
(ASC) 信息 ， 和 参考 文献 [42] 中 所 列 出 的 内 容 基 元 属性 是 灵活 通用 建立 描述 低 
层 内 容 (比如 ， 原 始 传感器 数据 ) 的 情景 模型 的 基础 。 但 是 这 样 的 模型 并 不 有 利 
于 系统 实体 (硬件 组 件 ， 单 个 元 件 等 ) 的 详细 描述 。 数 据 的 每 一 个 实测 样本 都 是 
某 一 特定 方面 (例如 ， 位 置 、 温 度 、 速 度 ) 的 实例 。 

根据 选 定 的 数据 源 和 它 的 硬件 能 力 ， 我 们 依据 特定 的 尺度 进行 数据 样本 的 解 
释 。 尺 度 表示 给 定数 据 样本 的 元 信息 ， 它 定义 样本 的 单位 和 语义 。 另 外 它 也 提供 了 
在 某 一 方面 不 同 尺度 之 间 的 转换 方法 。 例 如 ， 它 能 用 于 将 几何 信息 (如 ，WGS-84 
坐标 ) 转换 成 象征 性 的 位 置信 息 (如 123 室 ) 或 对 不 同 的 温度 单位 进行 转换 (如 ， 
摄氏 和 华氏 ) 。 如 今 ， 不 同 供应 商 提供 的 硬件 传感器 所 发 送 的 感知 数据 的 单位 、 时 
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标 和 形式 是 不 同 的 ， 因 此 ， 为 了 解决 不 断 增加 的 传感器 数据 的 异 构 性 问题 ， 我 们 提 
出 了 硬件 独立 数据 流 模型 的 方法 。 上 面 概述 的 PIM (平台 独立 模型 ) 借助 实例 描 
述 了 一 种 应 用 ， 抽 象 模型 通过 模型 转换 后 可 以 适用 于 一 种 特定 的 平台 。 所 谓 的 平台 
相关 模型 (PSM) 将 用 于 生成 特定 的 平台 代码 。MDA (模型 驱动 架构 ) 方法 详 述 
了 PIM 中 的 系统 功能 、 平 台 依赖 的 输入 数据 以 及 PSM 中 的 传感器 硬件 〈 例 如 ， 智 
能 摄像 机 ) 的 功能 。PIM 利用 所 有 实施 细节 ， 从 总 体 上 对 系统 和 它 的 组 成 部 分 
(约束 、 需 求 、 处 理 单元 ) 的 功能 进行 了 描述 ， 但 其 遗漏 了 特定 平台 的 相关 信息 。 
在 转换 阶段 ，PSM 用 于 决定 应 用 程序 的 各 部 分 在 特定 的 硬件 平台 上 如 何 分 布 以 及 
应 该 生成 哪 种 特定 的 平台 代码 。 然 后 在 网 络 间 不 同 的 目标 平台 上 配置 执行 平台 的 相 
关 代码 。 特 定 的 平台 代码 的 变换 过 程 使 得 整个 系统 与 特定 的 需求 相 适 应 。 因 此 ， 特 
定 的 平台 代码 可 以 被 优化 ， 并 完全 符合 实际 需求 〈 与 客户 的 和 目 定 义 代码 方式 非常 
相似 ) 。 

这 种 方法 与 分 布 式 数据 库 系统 的 通用 方法 全 然 相 反 ， 如 TinyDB 7! 和 Akdere 
等 学 者 的 项 目 ” ， 其 中 一 个 特殊 的 查询 接口 提供 了 类 SQL 标记 符 的 声明 式 查 询 。 
例如 ， 由 于 费用 问题 ， 通 用 方法 并 不 总 是 应 用 在 对 性 能 和 时 间 要 求 严 格 的 应 用 场 
景 中 。 

本 章 通过 实例 研究 ， 论 证 了 取决 于 关注 点 分 离 的 MDA 方法 ， 它 简化 了 视觉 传 
感 需 网 络 的 开发 和 管理 ， 尤 其 适用 于 复杂 的 和 对 时 间 要 求 严 格 的 应 用 场景 。 
































14.5 结论 


尽管 各 种 智能 摄像 机 网 络 的 设计 方法 都 集中 关注 一 些 特 定 的 方面 ， 例 如 通用 网 
络 协议 、 适 用 于 视 场 重生 摄像 机 的 特征 匹配 概念 、 设 计 特定 的 路 由 查询 机 制 和 数据 
库 横 型 或 者 专用 查询 接口 ， 本 章 关 注 的 却 是 与 重用 性 、 系 统 性 、 自 适应 性 和 灵活 性 
相关 的 软件 设计 方面 。 为 此 ， 本 章 概述 了 一 种 需要 形式 化 应 用 模型 的 模型 驱动 软件 
开发 的 范例 ， 并 以 机 场 监控 设施 中 的 智能 摄像 机 网 络 的 实例 为 基础 ， 讨 论 和 说 明了 
该 范例 的 实用 性 。 特 别 地 ， 我 们 指出 该 模型 驱动 架构 (MDA) 方法 适用 于 具有 如 
下 优势 的 分 布 式 视觉 传感器 网 络 : 中 一 种 统一 和 可 重复 使 用 的 系统 功能 模型 ; DR 
子 系统 的 可 重复 性 而 言 具 有 灵活 性 〈 例 如 ， 干 扰 检 测 ， 雾 识别 ) ; @ 一 种 异 构 硬 件 
平台 上 的 硬件 开发 利用 的 统一 方式 。 
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摘要 ”本章 基 于 异 构 立 体 视觉 ， 给 出 了 一 种 在 地 面 测试 图 上 进行 目标 定位 的 智 
能 化 架构 。 具 体 地 ， 使 用 静态 摄像 机 和 云 台 变焦 (PTZ) 摄像 机 来 获取 成 对 的 图 
像 ， 这 两 种 摄像 机 具有 不 同 的 成 像 参 数 ， 具 体 表现 在 焦距 、 成 像 分 辨 率 以 及 图 像 灰 
度 等 方面 。 以 协作 的 方式 从 摄像 机 网 络 中 选取 出 成 对 的 静态 摄像 机 和 云 台 变 焦 摄 像 
机 ， 然 后 将 它们 作为 一 个 立体 系统 ， 从 而 对 目标 进行 定位 ， 甚 至 是 目标 被 部 分 遮挡 
时 也 可 以 实现 定位 。 基 于 摄像 机 的 焦距 比 ， 对 这 两 种 摄像 机 获取 的 不 同 图 像 序列 进 
行 零 插值 ， 从 而 将 它们 转变 为 同 质 图 像 。 然 后 通过 尺度 不 变 特征 (SIFT) 匹配 技 
术 从 这 些 立体 图 像 中 得 到 成 对 的 匹配 点 。 通 过 求解 一 个 非 线 性 约束 优化 问题 可 以 计 
算 校准 变换 。 将 改进 的 立体 匹配 算法 应 用 在 校准 后 的 图 像 对 中 ， 从 而 佑 计 出 物体 的 
三 维 位 置信 息 。 然 后 通过 该 位 置信 息 实 现 定位 。 文 中 利用 真实 的 图 像 序列 进行 实验 
并 对 所 提出 架构 的 性 能 进行 了 评 佑 。 该 方法 在 立体 化 应 用 以 及 视频 监控 应 用 中 发 挥 
重要 作用 。 























15.1 简介 


从 系统 设计 和 应 用 的 角度 ， 与 传统 的 被 动 式 视频 监控 系统 相 比 ， 现 代 视 觉 监 控 
系统 更 加 智能 和 灵活 。 在 视频 监控 中 ， 对 一 个 广阔 的 复杂 区 域 进行 监控 涉及 大 量 的 
步 又， 例如 目标 的 检测 、 定 位 以 及 跟踪 。 对 移动 目标 在 给 定 地 面 测 试图 上 进行 定位 
是 其 中 重要 和 关键 的 任务 。 一 般 来 讲 ， 当 摄像 机 的 上 覆盖 范围 之 间 内 有 明显 的 间 阶 
时 ， 可 能 会 丢失 信息 ， 除 此 之 外 ,在 广阔 的 区 域 中 覆盖 不 同 的 摄像 机 也 是 不 可 行 
的 。 研 究 者 们 提出 了 一 种 解决 方案 ， 他 们 将 动态 摄像 机 或 者 动静 态 混合 摄像 机 应 用 
在 了 视频 监控 系统 中 。 一 般 来 讲 ， 这 类 技术 基于 摄像 机 平面 和 地 面 测试 图 之 间 的 二 
维 单 应 性 。 然 而 ， 当 目标 被 部 分 遮挡 时 ， 这 些 技术 不 能 实现 准确 定位 。 克 服 上 述 缺 
点 并 且 实 现 尽 可 能 准确 地 定位 需要 智能 化 自 适应 的 技术 。 

立体 视觉 技术 的 优势 在 于 ， 能 利用 目标 的 前 景 图 像 ， 对 它 在 给 定 坐 标 系 中 的 三 
维 位 置 进 行 准确 估计 。 在 传统 的 立体 系统 中 ， 通 常 使 用 一 对 完全 相同 的 摄像 机 。 这 
些 摄像 机 被 安装 在 同一 条 水 平 线 上 相 邻 的 位 置 。 通 过 解决 几何 逆 问 题 ， 也 就 是 说 ， 
利用 共 线 方程 的 逆 解 对 物体 的 三 维 位置 进 行 估计。 这 些 共 线 方程 或 者 前 景 投影 方程 
描述 了 目标 的 三 维 位置 及 其 二 维 成 像 平 面 坐标 之 间 的 关系 。 
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如 今 ， 对 广阔 的 区 域 进行 监控 时 ， 用 到 了 大 量 的 摄像 机 。 因 而 ， 可 以 将 这 些 摄 
像 机 作为 一 个 立体 视觉 系统 ， 从 而 实现 有 效 监控 。 与 传统 立体 视觉 系统 不 同 ， 这 些 
摄像 机 之 间 的 距离 通常 不 可 能 保持 很 小 的 距离 。 如 果 两 台 摄像 机 之 间 的 距离 较 远 ， 
则 传统 的 立体 算法 不 能 提供 目标 的 三 维 位 置 ， 它 的 另 一 个 主要 缺点 是 这 些 摄像 机 之 
间 缺 乏 协 作 和 成 像 参 数 的 异 构 性 。 引 入 一 个 智能 算法 便 可 以 解决 这 些 问题 。 另 外 ， 
采用 异 构 摄像 机 (一 对 静态 和 云 台 变焦 摄像 机 ) 的 立体 视觉 系统 有 很 多 优点 : 如 ， 
视 场 和 视角 的 自由 度 会 更 大 。 应 用 这 些 基 于 立体 视觉 系统 的 异 构 摄像 机 可 以 进行 更 
加 准确 的 定位 。 


15.1.1 相关 研究 


参考 文献 中 所 提出 的 大 多 数 研 究 方法 ,使 用 一 对 相同 的 摄像 机 建立 一 个 立体 视 
WRG 。 仅 使 用 这 些 基于 相同 摄像 机 的 立体 系统 ， 便 可 以 解决 许多 实际 问题 。 
一 般 来 讲 ， 这 些 摄 像 机 覆盖 固定 的 视 场 (FOVs)。 在 监控 应 用 中 ， 用 动态 或 PTZ $E 
像 机 代替 这 对 摄像 机 中 的 一 个 或 两 个 ， 所 设计 出 的 立体 系统 更 具有 灵活 性 5 HE 
这 种 方式 下 ， 视 场 (FOV) 和 视角 (AOV) 具有 更 大 的 自由 度 。 在 情况 复杂 的 宽 
广 区 域内 ,使 用 静态 和 PTZ 摄像 机 的 组 合 进 行 监控 ,会 具有 更 好 的 效果 :5 。 

近年 来 的 一 些 立体 视觉 技术 研究 中 ， 使 用 一 对 静态 和 PTZ 混合 的 摄像 机 或 者 
一 对 PTZ 摄像 机 531。 参考 文 献 [5, 225, 443] 中 详细 提出 了 与 混合 传感器 监 
控 系 统 相 关 的 一 些 智能 方法 。 参 考 文献 [5] 中 提出 的 方法 已 经 成 功 应 用 于 机 场 安 
全 监控 的 视觉 技术 中 。 参 考 文献 [375, 458] 中 提出 了 一 种 基于 更 动 态 摄像 机 网 
络 的 分 布 式 智能 系统 ， 用 于 对 可 疑 事 件 的 跟踪 和 检测 。 在 这 种 方法 中 ， 基 于 摄像 机 
成 像 面 和 地 面 测试 图 之 间 的 单 应 性 对 移动 目标 进行 定位 。 参 考 文献 [256] 中 提出 
了 一 种 方法 ， 通 过 静态 和 动态 摄像 机 的 协作 来 监控 宽广 的 区 域 。 然 而 ， 当 目标 被 部 
分 遮挡 时 ， 由 于 得 不 到 它 的 地 面 位 置 ， 因 此 这 类 系统 不 能 进行 准确 的 定位 。 

从 两 幅 以 上 二 维 场景 图 像 中 提取 三 维 信息 可 以 实现 立体 视觉 技术 。 立 体 视觉 技 
术 的 主要 步骤 包括 校准 、 校 正和 立体 匹配 。 获 取 摄 像 机 内 部 和 外 部 参数 的 过 程 称 为 
摄像 机 校准 。 这 些 标定 参数 主要 用 于 校正 立体 图 像 '1。 如 果 两 个 内 部 参数 相同 的 
摄像 机 并 排放 置 在 一 条 基线 上 ， 则 获得 一 对 直线 型 的 立体 图 像 。PTZ 摄像 机 的 主要 
问题 是 其 校准 参数 随 着 平移 /倾斜 /缩放 的 不 同 设置 而 变化 1 。 实 时 应 用 中 ,我 们 
不 能 对 PTZ 摄像 机 每 个 位 置 的 这 些 参数 进行 计算 。 尽 管 针 对 监控 应 用 , 已 经 提出 
了 一 些 PTZ 摄像 机 自 校准 技术 ”HI ， 但 是 它们 比较 耗 时 并 且 在 实时 应 用 中 并 不 十 
分 有 效 。 第 9 章 详 细 地 给 出 了 各 种 摄像 机 的 自 校 准 方法 。 解 决 摄像 机 校准 问题 的 另 
一 条 思路 是 直接 处 理 摄像 机 未 校准 时 的 图 像 ，””] 。 这 类 技术 需要 最 小 化 非 线性 函 
数 ， 也 需要 某 种 信息 ， 比 如 ， 从 未 校准 图 像 中 所 获得 的 匹配 点 集合 。 

获取 匹配 点 方法 有 许多 ， 比 如 基于 SIFT 匹配 算 子 的 方法 和 基于 Daisy 描述 
子 527501 的 方法 。 校 正 后 立体 图 像 对 的 立体 匹配 方法 主要 有 两 种 ， 即 基于 特征 的 方 
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法 “| 和 基于 像素 (区域 ) 的 方法 “|。 由 于 异 构 摄 像 机 获取 的 立体 图 像 对 的 灰 度 
是 不 同 的 ， 因 此 不 能 直接 利用 这 些 方 法 进行 立体 匹配 。 为 了 解决 这 个 问题 ， 应 基于 
匹配 点 的 灰 度 信息 把 立体 图 像 对 的 灰 度 归 一 化 。 归 一 化 后 ， 根 据 匹配 准则 计算 视 
差 。 通 过 视差 可 以 估计 出 目标 的 三 维 位 置 ““*: 。 在 视差 估计 中 ,用 SSD 准则 '”" 来 
寻找 最 佳 的 匹配 值 。 在 第 8 章 中 ， 详 细 描述 了 舱 入 式 立 体 匹配 方法 。 


15.1.2 所 提出 方案 的 概述 


在 目前 的 研究 工作 中 ， 开 发 了 一 种 智能 架构 ， 能 用 于 在 地 面 测试 图 上 对 移动 目 
标 进行 协作 立体 定位 。 特 别 地 ， 通 过 静态 和 PTZ 摄像 机 可 以 获得 一 对 图 像 ， 这 种 
成 对 的 摄像 机 具有 不 同 的 成 像 参数 ， 如 焦距 、 图 像 分 辨 率 和 灰 度 等 。 这 些 成 对 的 摄 
像 机 从 静态 和 PTZ 摄像 机 组 成 的 网 络 中 被 挑选 出 来 ， 以 协作 的 方式 进行 工作 ， 从 
而 构成 了 立体 视觉 系统 ， 实 现 目标 定位 ， 即 使 目标 被 部 分 遮挡 的 情况 下 也 能 正常 工 
作 。 在 根据 摄像 机 的 焦距 比 进行 零 插 值 后 ， 这 些 摄像 机 获取 的 异 质 图 像 变 为 同 质 图 
像 。 对 立体 图 像 进行 SIFT 匹配 可 以 得 到 成 对 的 匹配 点 。 通 过 求解 一 个 非 线 性 约束 
优化 问题 来 计算 校正 变换 。 把 改进 的 立体 匹配 方法 用 于 已 校正 的 立体 图 像 对 ， 可 以 
估计 目标 的 三 维 位 置 。 基 于 估计 的 三 维 位 置 就 能 实现 目标 定位 。 实 验 中 使 用 真实 图 
像 序 列 来 评估 所 提出 智能 架构 的 性 能 。 特 别 地 ， 对 单 目 摄像 机 协作 立体 定位 进行 了 
改进 。 该 方法 可 以 用 于 立体 显示 以 及 视频 监控 应 用 中 。 

本 章 的 剩余 部 分 安排 如 下 : 15. 2 部 分 为 协作 立体 定位 系统 的 架构 概述 。15.3 
部 分 描述 了 一 些 定位 的 预 处 理 步 又 ， 例 如 ， 补 偿 异 质 成 像 参 数 的 影响 、SIFT 匹配 
和 校正 。15. 4 部 分 概述 了 立体 匹配 和 所 提出 的 定位 机 制 。15. 5 部 分 为 所 提出 框架 
的 实验 结果 。15. 6 部 分 为 总 结 。 
































15.2 系统 架构 的 概述 


该 系统 由 智能 摄像 机 网 络 组 成 “W]。 摄 像 机 网 络 包 括 两 种 单元 ， 它 们 是 相互 协 
作 的 静态 摄像 机 单元 (SCU) 和 动态 摄像 机 单元 (DCU), SCU 使 用 大 量 的 通用 静 
态 摄 像 机 来 执行 目标 检测 1、 行为 理解 3 以 及 异常 事件 检测 "1。 一旦 检测 到 感 
兴趣 的 事件 ， 系 统 就 从 DCU 中 选取 最 近 的 或 更 适当 的 PTZ 摄像 机 来 执行 协作 立体 
定位 。PTZ 摄像 机 朝 着 所 选 的 目标 移动 时 需要 方向 参数 ， 这 些 参数 是 由 静态 摄像 机 
来 估计 的 。 当 所 选 目 标 同时 处 于 两 个 摄像 机 的 视 场 时 ， 这 两 个 摄像 机 开始 协作 立体 
定位 。 在 SCU 中 ,不 同 的 静态 摄像 机 之 间 的 切换 实现 了 对 监控 环境 中 目标 的 协作 
跟踪 。 轨 迹 数据 用 于 在 连续 协作 跟踪 中 进行 不 同 静 态 摄像 机 之 间 的 任务 切换 。 在 摄 
像 机 网 络 中 ， 基 于 多 协议 的 通信 系统 用 于 摄像 机 之 间 的 协作 。 这 种 方式 的 通信 系统 
需要 较 低 的 带宽 。 

这 种 方式 中 ， 所 提出 的 架构 使 用 了 一 对 异 构 摄 像 机 。 第 一 台 (左边 ) 摄像 机 
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是 静态 摄像 机 ， 它 在 室外 环境 (停车 场 ) 中 有 广阔 的 固定 视 场 。 以 协作 的 方式 从 
SCU 中 选取 静态 摄像 机 ， 从 DCU 中 选取 PTZ 摄像 机 。 第 二 台 (右边 ) 摄像 机 是 放 
置 在 静态 摄像 机 附近 的 AXIS PTZ 摄像 机 。 摄 像 机 的 视 场 由 平移 /倾斜 /缩放 的 设置 
参数 决定 ， 并 且 可 以 根据 需求 进行 调整 ?1 。 在 监控 场景 的 地 面 测试 图 上 对 移动 目 
标 进行 定位 。 测 试图 的 真实 尺寸 在 x- 方 向 上 长 40m HAE y-7718] EK 30m, 

图 15. 1 所 示 为 所 提出 立体 系统 的 虚拟 设计 ， 图 中 的 C, 和 C, 分 别 代表 静态 摄 
BALAI DIAS BL, FRASER RAL C, 有 固定 的 视 场 ，PTZ 摄像 机 通过 平移 /倾斜 / 缩 
放 设 置 获 得 自己 的 视 场 (部 分 或 者 全 部 )。 一 旦 在 静态 摄像 机 视 场 中 检测 到 特定 对 
象 ， 就 改变 PTZ 摄像 机 的 平移 /倾斜 /缩放 设置 参数 ， 使 得 目标 进入 它 的 视 场 中 。 





图 15.1 异 构 立体 视觉 系统 的 虚拟 设计 





和 传统 的 立体 视觉 系统 相 比 ，PTZ 摄像 机 部 署 的 属性 使 得 立体 视觉 问题 变 得 更 
加 复杂 。 本 架构 中 ， 这 对 摄像 机 获取 的 图 像 是 异 质 的 ， 也 就 是 说 ， 它 们 有 不 同 的 内 
部 参数 。 硅 对 这 些 异 质 图 像 进行 进一步 的 校正 之 类 的 操作 ， 将 使 图 像 校正 后 的 误差 
更 大 。 因 此 ， 从 含有 误差 的 校正 图 像 对 中 进行 立体 匹配 是 困难 的 。 但 是 参考 文献 中 
对 这 种 问题 的 关注 并 不 够 。 在 校正 之 前 必须 对 这 些 内 部 参数 所 造成 的 影响 进行 补 
淮 。 换 句 话 说， 在 进一步 处 理 之 前 ， 必 须 将 这 些 异 质 图 像 对 转换 成 均匀 的 图 像 对 。 
所 提出 的 相应 方法 基于 图 像 对 的 焦距 信息 ， 并 且 可 以 实时 实现 。 


15.3 预定 位 步骤 


在 进行 立体 图 像 对 的 立体 匹配 之 前 ， 必 须 执行 一 些 预定 位 步骤。 第 一 步 就 是 将 
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这 些 内 部 参数 不 同 的 图 像 转化 成 同 质 图 像 。 下 一 步 就 是 使 用 SIFT 匹配 的 方法 对 同 
质 图 像 的 匹配 点 集合 进行 补偿 。 图 15. 2 举例 说 明了 这 两 步 的 流程 图 。 该 过 程 的 最 
后 一 步 是 校正 变换 的 计算 。 

静态 摄像 机 PTZ 摄像 机 








图 15.2 异 质 图 像 对 的 一 些 预 处 理 步 又 





15.3.1 将 图 像 对 转换 成 同 质 图 像 


由 一 对 异 构 摄像 机 获取 的 图 像 对 ， 其 内 部 参数 是 不 同 的 。 主 要 原因 是 两 台 摄 像 
机 的 缩放 设置 不 同 。 如 果 我 们 对 这 些 图 像 直 接 进 行 深 一 层 的 处 理 ， 结 果 将 会 产生 许 
多 误差 。 为 了 解决 这 个 难题 ， 在 执行 深层 次 的 处 理 之 前 ， 将 这 些 图 像 对 转化 成 同 质 
图 像 。 

有 一 对 图 像 T 和 了,， 它 们 的 大 小 均 是 w xh， 它 们 来 自 具有 任意 缩放 值 的 静态 
摄像 机 和 PTZ 摄像 机 。 完 成 图 像 对 同 质 转化 的 步骤 如 下 : 

1. 计算 焦距 比 R=f/A;， 其 中 大 和 下 分 别 是 静态 摄像 机 和 PTZ 摄像 机 的 焦距 。 

2. 验证 R=1 是 否 成 立 ， 如 果 成 立 ， 图像 对 就 是 同 质 的 ， 否 则 进行 下 一 步 。 

3. 通过 RR 因子 来 改变 由 PTZ 摄像 机 获取 的 图 像 五 的 大 小 。 将 其 大 小 从 zw x h 2 
小 到 w xh'， 得 到 新 图 像 To 

4. 对 图 像 1 两 个 水 平方 向 的 边 均 进行 大 小 为 u, xv 的 零 插值 。 其 中 

m PP a nal (15. 1) 

RR ENR N, HAVA w xh’, 

5. 然后 ， 在 图 像 必 两 个 垂直 方向 的 边 均 进行 大 小 为 u, xv, 的 零 插 值 。 其 中 


w= oy au (15.2) 














6. 重复 第 二 步 。 
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修正 后 的 图 像 ， 其 大 小 和 图 像 1 的 大 小 相同 ， 均 为 ww xh。 新 图 像 对 的 缩放 参 
数 相同 。 由 于 已 经 假设 PTZ 摄像 机 的 最 小 缩放 值 等 于 静态 摄像 机 的 缩放 值 ， 因 此 ， 
上 述 过 程 中 仅 对 由 PTZ 摄像 机 获取 的 图 像 进行 零 插 值 。 


15.3.2 SIFT (尺度 不 变 特 征 变 换 ) 匹配 


立体 图 像 对 的 匹配 过 程 分 为 以 下 两 步 。 第 一 步 ， 分 别 检测 每 幅 图 中 尺度 不 变 的 
特征 。 第 二 步 ， 对 立体 图 像 对 中 的 这 些 特征 进行 匹配 。 

当 对 图 像 进行 平移 、 缩 放 和 旋转 时 ， 图 像 的 尺度 空间 是 不 变 的 ， 在 该 图 像 尺度 
空间 上 进行 位 置 识别 的 过 程 取决 于 关键 点 的 定位 。 实 现 步 又 如 下 : 

1. 对 输入 的 图 像 1 和 方差 为 o = 的 高 斯 函数 进行 卷 积 运算 。 得 到 图 像 Lo 

2. XE EVER 1 重复 步骤 1 得 到 新 图 像 L 。 

3. 从 图 像 了 中 减 去 图 像 /可 以 得 到 关于 高 斯 函数 的 差 。 

4. 在 每 个 方向 上 ， 按 照 像素 间距 为 1.5 对 图 像 /进行 双 线 性 插值 采样 。 间 路 
为 1.5 意味 着 任意 一 个 新 的 采样 点 恒 为 其 四 个 相 邻 像素 的 线性 组 合 。 由 此 ， 得 到 新 



































RR 

















的 金字 塔 层 。 
5. 将 金字 塔 中 的 每 个 像素 点 与 其 邻 点 进行 比较 ， 得 到 这 个 尺度 空间 函数 的 最 
大 值 和 最 小 值 。 

















6. 在 尺度 空间 上 获得 高 斯 函数 差 的 最 大 值 和 最 小 值 ， 并 据 此 来 选择 关键 点 位 置 。 

从 这 些 关键 位 置 中 可 以 检测 出 SIFT 特征 。 为 了 实现 不 同 视角 下 物体 或 场景 之 
间 的 可 靠 匹配 ， 需 要 从 这 些 关键 点 的 准确 位 置 和 周围 位 置 中 检测 这 些 特 征 。 这 些 特 
征 不 仅 在 图 像 旋转 时 保持 不 变 ， 而 且 在 图 像 缩放 时 也 保持 不 变 ， 并 且 在 仿 射 变换 ， 
三 维 视角 变换 ， 增 加 噪声 和 光照 变化 的 大 量变 化 中 能 够 提供 鲁 棒 的 匹配 。 对 于 立体 
图 像 匹 配 ， 从 左 图 中 提取 SIFT 特征 并 将 这 些 特征 存储 在 数据 库 中 。 将 右 图 的 每 个 
特征 分 别 和 这 个 数据 库 比较 ， 然 后 根据 它们 特征 向 量 的 欧 氏 距离 来 查询 最 佳 的 匹配 
特征 。 使 用 参考 文献 [337] 中 给 出 的 方法 , 已 经 实现 了 立体 图 像 对 的 特征 匹配 。 
基于 这 些 匹 配点 实现 了 校正 过 程 。 

从 SIFT 得 到 的 匹配 点 对 中 ，RANSAC (随机 抽样 一 致 性 ) $E EHE AUR SE 
常 点 对 。 更 一 般 地 讲 ， 假 设 数据 由 正常 点 组 成 ， 也 就 是 说 ， 数 据点 可 以 被 某 一 模型 
参数 集合 来 解释 ， 而 数据 点 中 的 异常 点 不 符合 这 个 模型 。 而 且 ， 数 据点 受 噪 声 影 
响 。 改 进 的 RANSAC 能 够 提高 模型 参数 估计 的 鲁 棒 性 。 即 使 数据 集中 存在 大 量 的 
异常 点 ， 这 种 算法 也 能 找到 合适 的 参数 估计 值 。 


15.3.3 ”校正 矩阵 的 计算 


图 像 校正 能 使 立体 图 像 的 匹配 点 位 于 同一 条 水 平 扫描 线 上 。 当 立体 图 像 未 被 校 
正 时 ， 对 每 一 幅 图 像 进 行 二 维 投 影 变换 或 者 进行 单 应 性 变换 后 ， 均 可 以 实现 校正 。 
单 应 性 矩阵 是 投影 平面 的 一 一 线性 变换 ， 由 一 个 3 x3 的 非 奇 异 矩 阵 表 示 。 
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利用 SIFT 匹配 算法 提取 出 对 应 点 (m;，m',) ， 然 后 将 这 些 点 用 于 校正 变换 矩 
阵 豆 和 瑟 ' 的 计算 。 方 法 如 下 : 

为 了 估计 五 和 五 "这 两 个 单 应 性 矩阵 ， 将 这 些 成 对 的 对 应 点 作为 校正 过 程 的 输 
入 值 。 假 设 从 两 幅 图 像 中 利用 SIFT 匹配 方法 得 到 N 组 的 对 应 点 ， 即 ，(m,,，m',)， 
1i=1，2，…N。 对 如 下 的 代价 函数 最 小 化 便 得 到 这 两 个 单 应 性 矩阵 : 


N 
E(H,H') = M (mH F,Hm))' (15.3) 
i=l 


我 们 知道 FAN el ER, ARH (15.3) EREE H OA H' 
WS TTAB = 77, Al, BEA We HH 矩阵 的 第 一 行 就 需要 引入 一 些 约束 条 件 。 
这 种 约束 条 件 定义 为 ， 最 小 化 对 应 极 线 在 垂直 方向 上 的 距离 。 解 决 约束 条 件 下 的 最 
优化 问题 ， 需 要 定义 非 线 性 目标 函数 为 

F(H,H') -E(H,H') +Ad(H,H’) (15.4) 

其 中 A= [A 45, 2,] 是 一 个 行 向 量 。 式 (15.4) 是 非 线 性 最 小 化 问题 。 

我 们 使 用 Levenberg- Marquardt 算法 实现 最 小 化 ， 这 种 算法 具有 有 效 性 和 普遍 性 。 





15.4 立体 定位 


在 本 节 中 ， 我 们 将 对 目标 在 地 面 测试 图 中 进行 定位 。 首 先 ， 利 用 立体 化 算法 计 
算 目 标 在 固定 摄像 机 坐标 系 中 的 三 维 位 置 X, Y, Z] 。 然 后 ， 按 以 下 方式 得 到 
目标 在 测试 图 中 的 位 置 [X,，Y, ]: 

[X,Y,,1]=H" x [X,,Y,,1], (15.5) 

其 中 ， 瑟 表示 一 个 单 应 性 矩阵 ， 也 就 是 ， 部 分 已 知 点 (如 角 点 、 标 志 点 、 顶 
点 ) 的 地 面 位 置 X, Y] 的 齐 次 坐标 和 它们 各 自在 测试 图 上 的 位 置 之 间 存在 一 
个 单 应 性 矩阵 。 

有 许多 计算 两 个 平面 视 场 之 间 单 应 性 的 方法 。 例 如 ， 基 于 直接 线性 变换 
(DLT) 或 者 奇异 值 分 解 (SVD) 的 技术 。 本 节 中 ， 我 们 已 经 使 用 IRST 算法 得 到 了 
所 希望 的 鲁 棒 单 应 性 。 和 传统 的 最 小 二 乘法 相 比 ， 这 种 算法 对 异常 值 不 够 敏感 ， 最 
小 化 异常 值 的 影响 可 以 提供 鲁 棒 的 单 应 性 。 

本 文中 ， 基 于 立体 化 过 程 实现 目标 的 定位 。 根 据 目标 在 世界 坐标 系 中 的 坐标 
[X,， 了 Y,，2Z,]， 计 算 目 标的 三 维 位 置 。 在 校正 立体 图 像 对 之 后 ， 紧 接着 计算 匹配 
对 之 间 的 视差 。 我 们 仅仅 计算 与 目标 有 关 的 像素 之 间 的 视差 。 由 于 目标 检测 是 在 更 
态 摄像 机 获取 的 图 像 中 进行 的 ， 所 以 将 其 匹配 像素 的 搜索 范围 限制 在 PTZ 摄像 机 
获取 图 像 的 相应 极 线 上 (如 图 15.3) 。 对 于 静态 摄像 机 所 获取 图 像 二 中 的 目标 像 
素 ， 以 任 一 目标 像素 为 中 心 形成 一 个 奇数 维 的 小 窗口 ， 并 使 之 固定 不 动 ， 该 小 窗口 
与 PTZ 摄像 机 所 获取 图 像 上 的 某 一 窗口 进行 比较 ， 并 计算 它们 之 间 的 相似 度 ， 
注意 4 上 的 窗口 可 以 沿 着 相应 的 水 平 扫描 线 ( 极 线 ) 移动 。 利 用 归 一 化 的 SSD W 


w? 
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， 来 比较 窗口 之 间 的 相似 性 ， 归 一 化 的 SSD 测度 度量 图 像 灰 度 之 间 的 差 : 
3 [letey+n) -L(x+d+é,y+n)] 


C= ; 
2 2 
f eg PEGA DAE TETTE 








图 像 的 其 他 
部 分 不 匹配 





静态 摄像 机 画面 PTZ 摄像 机 画面 
图 15.3 改进 的 立体 匹配 方法 





HF, €e[-n,n],nel-m,m], 像素 (x, y) 的 视差 估计 值 使 得 SSD 的 误 
差 达 到 最 小 : 
d,(x,y) =argminC(x,y,d) 
然而 ， 注 意 到 ， 对 于 每 个 视差 ,平方 差 仅 需要 计算 一 次 ， 当 窗口 移动 一 个 像素 
的 时 候 ， 不 需要 对 窗口 重新 求 和 。 当 目标 在 左右 图 像 上 的 位 置 之 间 的 视差 d 被 计算 
出 来 以 后 ,目标 Z, 沿 着 光 轴 到 摄像 机 的 距离 可 以 使 用 以 下 公式 计算 出 来 : 


Z, =/ 了 (15.6) 


其 中 , 人 是 校正 后 图 像 对 的 焦距 ， 表示 基线 距离 。 将 静态 摄像 机 所 获取 图 像 
上 的 目标 位 置 表示 为 〈*.，》) ， 该 位 置 能 以 摄像 机 的 光 轴 为 基准 ， 统 一 表示 为 
XZ, Y, BAM 
Í Í 
一 且 估 计 出 目标 的 三 维 位 置 后 ， 即 可 利用 式 (15.5) 在 测试 图 上 进行 定位 。 
下 一 节 ， 不 同情 况 下 的 实验 结果 说 明了 该 架构 的 可 用 人 性。 








X,- 





15.5 实验 结果 


通过 已 经 设计 了 几 个 实验 ， 对 所 提出 的 架构 在 地 面 测试 图 上 定位 移动 目标 的 性 
能 进行 评估 。 通 过 一 对 静态 和 PTZ 摄像 机 获取 了 停车 场 图 像 序列 。 将 行人 当 作 目 
标 ， 各 种 车 辆 当 作 遗 挡 。 改 变 PTZ 摄像 机 的 变焦 设置 ， 可 获得 各 种 情况 下 的 结 
例如 ， 目 标 被 遮挡 和 未 被 遮挡 。 本 小 节 我 们 通过 实验 研究 ， 主 要 讨论 两 个 不 同 的 问 
题 。 首 先 ， 给 出 了 一 些 由 不 同 变焦 设置 时 所 获取 图 像 对 的 校正 和 定位 结果 。 这 些 结 
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果 说 明 ， 与 直接 校正 异 质 图 像 对 相 比 ， 同 质变 换 后 的 图 像 对 的 校正 更 加 准确 。 与 标 
准 单 目 摄像 机 定位 相 比 ， 所 提出 架构 的 定位 准确 度 更 有 优越 性 。 

图 15. 4 显示 了 使 用 两 组 不 同 的 图 像 进行 校正 和 定位 的 结果 。 这 两 组 图 像 是 由 
静态 和 PTZ 摄像 机 在 不 同 的 变焦 设置 下 获取 的 。 第 一 行 给 出 了 两 组 不 同 的 异 质 
像 对 。 第 二 行 是 它们 同 质 变换 后 的 图 像 。 第 三 行 和 第 四 行 分 别 给 出 了 校正 的 异 质 
像 对 和 校正 的 同 质 图 像 对 。 计 算 校正 误差 的 准则 是 校正 后 图 像 对 的 极 线 间 垂直 距离 
的 平均 值 。 左 边 的 图 像 对 在 被 转换 成 同 质 图 像 对 后 ， 再 进行 校正 ， 其 误差 由 0. 53 
像素 降低 到 0. 06 像素。 右边 的 图 像 对 ， 误 差 由 0. 79 像素 降低 到 0. 07 像素 。 当 这 
些 图 像 对 在 被 转换 成 同 质 图 像 对 后 ， 再 进行 校正 ， 其 畸变 误差 也 降低 了 (如 图 
15.4) 。 表 15. 1 所 示 为 不 同 焦距 比值 时 的 校正 误差 。 
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图 15.4 基于 异 质 图 像 对 的 目标 校正 和 定位 
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表 15.1 在 不 同 焦 距 比 下 ， 异 质 和 同 质 图 像 对 的 校正 误差 




















fe WB 比 校正 误差 (FM) 校正 误差 CI) 
1.0 0. 06 0. 06 
0. 88 0. 53 0. 06 
0. 76 0. 67 0. 07 
0. 64 0. 93 0. 11 
0.52 2.67 0. 38 
0. 40 6. 45 0. 64 








在 第 二 组 实验 中 ， 在 平移 /倾斜 /缩放 的 不 同 设置 下 获取 了 三 个 图 像 序列 ， 并 对 
被 遮挡 的 目标 进行 定位 。 图 15. 5 为 三 幅 图 像 中 移动 目标 的 定位 结果 。 图 15. 5 清晰 
地 表明 ， 其 至 在 遮挡 情况 下 ， 所 提出 的 算法 也 能 够 对 目标 进行 准确 的 协作 定位 。 而 
且 ， 和 基于 单 目 摄像 机 的 机 制 相 比 ， 所 提出 的 基于 立体 视觉 机 制 的 定位 性 能 更 好 。 
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图 15.5 利用 三 组 不 同 的 图 像 ， 对 所 提出 的 算法 与 标准 的 单 目 摄像 机 定位 技术 进 


行 比较 。 静 态 摄像 机 获取 的 图 像 (WIT), PTZ 摄像 机 获取 的 图 像 (中 间 行 )， 测 
试图 上 的 定位 ( 底 行 ) 
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图 15.6 中 ， 利 用 移动 目标 的 跟踪 轨迹 ， 对 所 提出 的 架构 和 基于 标准 单 目 
摄像 机 的 技术 进行 了 比较 。 当 目标 被 遮挡 时 ， 和 基于 标准 单 目 摄像 机 的 拉 术 相 
比 ， 本 架构 得 到 的 跟踪 轨迹 更 加 准确 。 然 而 ,在 目标 未 被 遮挡 时 ， 它 们 的 轨迹 
互相 重合。 曲面 图 也 说 明 ， 我 们 提出 的 架构 比 标准 单 目 摄像 机 的 定位 技术 更 具 
优越 性 。 图 中 ，x 轴 表 示 遮 挡 物 的 高 度 ，y 轴 表 示 移 动 目标 沿 着 光 轴 方向 离 静 
态 摄像 机 的 距离 。 误 差 准则 被 定义 为 目标 的 实际 位 置 (地 面 真实 值 ) 和 其 计 
算 定位 之 间 的 距离 。 在 基于 单 目 摄像 机 机 制 时 ， 无论 是 物体 离 摄 像 机 的 距离 增 
大 还 是 遮挡 物 的 高 度 增 大 ,误差 都 会 增 大 。 而 利用 所 提出 的 算法 ,误差 几乎 是 
不 变 的 ， 并 不 随 着 遮挡 物 的 高 度 或 者 物体 离 摄像 机 的 距离 而 变化 。 
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图 15.6 分 别 利用 所 提出 的 算法 和 基于 标准 单 目 摄像 机 的 技术 对 移动 目标 进行 跟 
踪 ， 所 得 到 的 跟踪 轨迹 如 左 图 所 示 ; 右 图 所 示 ， 横 坐标 相应 于 遮挡 物 的 高 度 、 目 
标 与 静态 摄像 机 之 间 的 距离 ， 纵 坐标 表示 两 种 算法 的 定位 误差 























15.6 结论 


我 们 提出 了 一 种 利用 立体 视觉 技术 在 平面 图 上 对 目标 进行 协作 定位 的 方 
法 。 这 种 立体 视觉 系统 是 由 智能 摄像 机 网 络 中 的 两 个 异 构 传 感 器 〈 静 态 和 PTZ 
摄像 机 ) 组 成 的 。 首 先 ， 以 一 种 智能 方式 ， 对 因 成 像 参数 差异 所 造成 的 影响 ， 
通过 焦距 比 和 和 零 搬 值 进行 补偿 。 其 次 ， 给 出 一 种 改进 的 方法 ， 仅 仅 校 正 图 像 对 
中 与 目标 有 关 的 像素 点 ， 然 后 进行 立体 匹配 。 利 用 立体 视觉 技术 估计 出 目标 在 
三 维 空间 中 的 位 置 ， 然 后 基于 所 估计 出 的 三 维 位置 ， 对 目标 在 给 定 的 地 面 测试 
图 上 进行 定位 。 和 基于 单 目 摄像 机 的 定位 相 比 ， 我 们 所 提出 的 方法 能 够 进行 更 
准确 的 定位 。 得 益 于 跟踪 切换 机 制 PTZ 摄像 机 能 以 协作 方式 与 任意 一 台 静 态 
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摘要 : 在 智能 摄像 机 的 许多 应 用 中 ， 机 天 视觉 算 是 最 成 功 的 一 个 。 智 能 摄像 机 
在 机 顺 视觉 方面 已 经 有 一 定 的 成 熟 度 ， 并 且 与 视觉 系统 的 其 他 类 型 一 起 占据 了 稳定 
的 市 场 份额 。 最 近 的 市 场 数 据 显示 ， 与 其 他 的 视觉 系统 相 比 ， 智 能 摄像 机 的 增长 速 
度 较 快 。 当 用 于 机 器 视觉 时 ， 大 多 数 智能 摄像 机 是 独立 完整 的 摄像 头 。 在 机 器 视觉 
方面 ， 关 于 智能 摄像 机 的 一 些 技术 ， 我 们 在 本 章 中 做 出 了 概述 。 我 们 回顾 了 它们 在 
工业 机 天 视觉 方面 的 一 些 优 点 及 应 用 。 关 于 智能 摄像 机 在 开发 时 的 设计 方法 以 及 
软 便 件 系统 ， 在 之 后 的 讨论 中 会 涉及 。 本 童 后面 ， 对 智能 摄像 机 在 机 器 视觉 方面 
的 一 些 例 子 作 出 分 析 ， 然 后 ， 预 测 其 末 来 趋势 以 及 一 些 可 能 遇 到 的 挑战 。 关 于 智 
能 摄像 机 在 机 器 视觉 方面 的 一 些 网 址 以 及 其 他 的 资源 ， 在 本 章 结束 前 的 最 后 一 节 
中 给 出 。 


















































16.1 机 器 视觉 的 简介 





计算 机 视觉 是 一 门 研究 学 科 ， 它 不 断 地 发 展 新 的 理论 和 技术 ， 这 些 技术 使 计算 
机 能 “看 到 ”并 理解 摄像 机 从 现实 世界 获得 的 图 像 。 机 器 视觉 ， 或 者 工业 机 顺 视 
觉 ， 是 计算 机 视觉 和 其 他 的 技术 (光学 工程 、 机 械 工 程 等 ) 在 工业 自动 化 中 的 应 
用 。 计 算 机 视觉 更 专注 于 开发 新 的 图 像 处 理 和 模式 识别 算法 ， 用 来 提高 计算 机 
“看 ”以 及 理解 图 像 的 能 力 ， 但 是 ， 为 了 实现 工业 过 程 自动 化 ， 机 器 视觉 更 关心 建 
立 实用 的 摄像 系统 ， 该 系统 可 以 在 理解 的 基础 上 做 出 决定 或 采取 行动 。 在 媒体 中 ， 
“机 顺 视 觉 ” 这 个 术语 ， 过 去 常常 指 非 工业 应 用 ， 而 在 本 章 这 个 词 竺 指 工业 机 顺 视 
觉 ， 包 括 机 器 人 视觉 。 

最 早 的 机 器 视觉 摄像 机 大 概 可 以 追溯 到 20 世纪 60 年 代 未 ， 当 时 麻 省 理工 学 院 
(MIT) 首次 把 图 像 处 理应 用 到 工业 环境 中 ， 即 应 用 摄像 机 驱动 机 器 人 手臂 "” 。 现 
在 ， 机 器 视觉 工程 需要 多 学 科 的 努力 ， 它 涉及 计算 机 视觉 软件 工程 ， 光 学 工程 ， 
电气 工程 ， 机 械 工程 以 及 工业 自动 化 等 方面 的 技能 和 专业 知识 。 与 基于 人 类 或 基于 
手动 的 控制 系统 相 比 ， 机 器 视觉 系统 大 大 提高 了 工业 自动 化 和 控制 系统 的 性 能 ， 而 
且 提高 了 生产 效率 。 这 些 系统 在 工业 领域 所 发 挥 作用 的 例子 有 很 多 ， 在 为 自动 控制 
系统 提供 创新 性 解决 方案 的 过 程 中 ， 它 们 表现 出 了 许多 优势 ， 如 准确 性 、 可 靠 性 、 
灵活 性 、 一 致 性 、 成 本 效益 、 提 高 生产 竞争 力 以 及 工人 的 安全 等 方面 。 自 20 世纪 
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90 年 代 以 来 ， 由 于 机 器 视觉 的 一 些 技术 变 得 越 来 越 强 大 且 趋 向 成 熟 ， 越 来 越 多 的 
终端 用 户 需求 并 采用 这 些 技术 。 

对 任何 机 器 视觉 系统 来 说 ， 摄 像 头 都 是 必 不 可 少 的 组 件 。 智 能 摄像 机 是 独立 完 
整 的 视觉 系统 。 自 20 世纪 80 年 代 以 来 ， 在 很 多 制造 业 领域 ， 智 能 摄像 机 保持 着 高 
速 的 增长 速率 。 基 于 此 ， 智 能 摄像 机 在 机 需 视 党 方面 的 应 用 最 近 已 经 成 功 地 扩展 到 
非 制造 业 ， 如 人 物 识别 ， 文 档 人 处 理 ， 交 通 工 程 以 及 零售 业 物 流 。 事 实 上 ， 对 机 棍 视 
觉 行业 来 说 ， 这 些 新 应 用 占 其 总 收入 的 很 大 比重 :1 。 在 通信 接口 ，LLO 和 视觉 软 
件 库 标 准 化 方面 ， 该 行业 所 做 的 努力 也 促进 了 智能 摄像 机 和 机 器 视觉 市 场 比重 的 增 
加 。 这 些 标准 化 使 集成 更 紧密 ， 提 高 互 操 作 性 ， 并 且 缩 短 了 上 市 时 间 。 

在 制造 业 ， 机 器 视 觉 系 统 紧密 地 集成 在 自动 控制 系统 内 。 这 种 集成 系统 通常 包 
括 一 些 组 件 或 一 些 子 系统 : 

CD 最 主要 的 是 摄像 头 或 视觉 系统 ， 它 们 用 来 捕获 以 及 分 析 目 标 零件 或 目标 物 
体 的 图 像 ; 

© 一 种 机 构 (如 传送 带 ) 能 不 断 地 提供 被 检测 或 者 需要 识别 的 物体 或 零件 并 
且 便 于 零件 生产 工艺 流程 的 后 分 析 ; 

@) 一 种 照明 系统 ， 有 助 于 摄像 机 更 好 地 “看 到 ”的 物体 ; 

@ 以 及 基于 摄像 头 输出 的 执行 器 或 装置 ， 常 用 于 控制 被 分 析 物 体 ; (例如 ， 对 
零件 分 类 或 分 拣 有 缺陷 的 零件 ) 。 

任何 机 器 视觉 系统 的 重要 组 件 ， 就 智能 摄像 机 来 说 ， 是 在 摄像 头 或 视觉 系统 内 
的 专用 信息 处 理 器 (ASIP) 模块 ， 它 能 够 分 析 传 入 的 图 像 ， 提 取 有 用 的 特征 ， 做 
出 决策 ， 并 产生 控制 行为 ， 所 有 这 一 切 的 进行 都 是 实时 的 。 例 如 ， 自 动 检测 零件 ， 
检 出 有 故障 的 零件 ，ASIP 从 获得 的 图 像 中 分 割 一 部 分 信息 ; 提取 这 部 分 特定 功能 ， 
可 以 提取 纹理 ， 颜 色 或 形状 ; 让 它 与 模板 进行 比较 ; 确定 被 检查 的 这 部 分 是 否 有 故 
障 ; 若 结果 显示 有 故障 ， 则 告知 控制 系统 排除 这 部 分 。 
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16.2 智能 摄像 机 和 机 器 视觉 


在 机 需 视 觉 中 ， 视 觉 系统 有 两 种 主要 的 类 型 : 基于 PC (个 人 计算 机 ) 的 系统 
和 智能 摄像 机 。 在 基于 PC 的 系统 中 ， 通 用 的 摄像 机 可 以 用 来 捕获 图 像 。 通 过 通信 
接口 ， 这 些 图 像 被 发 送 到 PC 或 PC 主机 的 恋人 式 系统 。 智 能 摄像 机 和 视觉 系统 党 
用 的 通信 接口 是 Camera Link, Gigabit Ethernet, GigE Vision (用 于 机 需 视 觉 行 业 的 
Gigabit Ethernet ERMEL), Firewire 和 USB。 在 基于 PC 的 系统 中 ，ASIP (专用 的 信 
EEHEHE) 由 PC 或 PC 主机 处 理 系 统 完成 。 基 于 PC 的 系统 可 以 进一步 分 为 两 种 类 
型 : 一 种 适合 特定 应 用 ， 另 一 种 更 加 灵活 且 具 有 面向 应 用 的 可 编程 性 。 前 者 有 时 被 
称 为 专用 的 视觉 系统 (ASVS) ， 而 后 者 被 称 为 可 配置 的 视觉 系统 (CVS) 。 正 如 其 
名 字 所 上 暗示 的 ，ASVS 是 一 个 交 钥匙 解决 方案 ,该 方案 为 特定 的 应 用 进行 了 优化 ， 
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能 提供 很 好 的 性 能 ， 但 灵活 性 较 差 。 另 一 方面 ， 由 于 CVS 可 重新 编程 ， 因 此 其 使 
REI EDU, 

智能 摄像 机 是 完整 的 自主 视觉 系统 。 与 主要 功能 是 捕获 图 像 的 标准 型 摄像 机 相 
比 ， 智 能 摄像 机 通常 在 摄像 头 内 有 完整 的 计算 结构 (处 理 器 ， 内 存 ， 通 信 等 ) ， 它 
除了 简单 地 获取 图 像 ， 可 以 执行 ASIP 功能 。 事实 上 ,智能 摄像 机 把 图 像 采集 ， 
ASIP 功能 ， 通 信和 接口 以 及 L/O 功能 进行 集成 ， 在 摄像 机 的 外 过 内 进行 合并 。 一 些 
智能 摄像 机 ， 外 形 尺寸 非常 简洁 ， 功 耗 低 ， 对 特定 的 检查 任务 进行 优化 。 这 些 摄像 
机 有 了 时 被 称 为 视觉 传感器 。 

比 起 智能 摄像 机 ， 基 于 PC 系统 的 一 个 显著 优势 是 其 灵活 性 一 一 可 以 进行 编程 
或 配置 来 执行 机 器 视觉 各 种 不 同 的 任务 。 这 些 系统 更 容易 在 自动 化 系统 中 集成 ， 由 
于 大 多 是 通用 零件 ， 购 买 、 替 换 或 者 维护 这 些 零 件 都 相对 容易 。ASIP 算法 一 般 能 
承担 起 更 复杂 的 任务 ， 这 是 由 于 它 存在 大 量 的 处 理 系统 和 存储 资源 。 这 些 系统 的 缺 
点 是 其 组 成 相对 复杂 ， 具 有 大 到 充满 整个 房间 的 外 形 尺 寸 和 由 于 高 端 设备 或 大 量 部 
件 导 致 的 高 成 本 。 智 能 摄像 机 并 不 需要 连接 到 外 部 处 理 单元 ， 它 以 独立 自主 的 方式 
执行 特定 任务 ， 为 了 使 算法 设置 、 摄 像 机 的 配置 和 校准 初始 化 ， 需 要 把 摄像 机 连接 
到 PC。 
智能 摄像 机 的 主要 优点 包括 : 

CD 使 用 简单 ，; 

D 有 能 够 简化 整个 机 器 视觉 系统 设计 和 开发 的 能 

© (非常 ) 低 的 输出 带宽 要 求 ; 

D 比 起 基于 PC 系统 更 容易 维护 数据 安全 ; 

© SEIE; 

© 简洁 的 外 形 尺 寸 ， 对 于 在 一 些 工业 应 用 环境 这 种 外 形 很 重要 ; 

D 由 于 其 低 的 输出 带宽 ， 智 能 摄像 机 可 以 与 几乎 无 限 长 的 电缆 连接 (例如 ， 
Ethernet) ， 而 传输 原 视 频 流通 常 需要 高 性 能 的 连接 ， 这 种 连接 的 电缆 长 度 有 限 且 成 
本 高 (例如 ，Camera Link)。 预 先 压缩 原 视频 流 (符合 标准 的 连接 带宽 ) 降低 了 在 
PC 机 上 进行 机 器 视觉 处 理 的 质量 。 

低 功 耗 ; 

(9) 以 及 一 些 情况 下 ， 由 于 零件 数量 或 者 设备 数量 少 而 使 价格 低 。 
智能 摄像 机 ， 尤 其 是 视觉 传感器 ， 一 般 是 对 特定 任务 进行 设计 和 优化 的 ， 
此 ， 对 一 些 非特 定 用 途 缺 乏 灵 活 的 适应 性 。 通 党 情况 下 ， 智 能 摄像 机 ， 由 于 其 仍 人 
式 处 理 器 达 不 到 理想 状态 ， 性 能 会 受到 限制 。 同 时 ， 与 基于 PC 的 系统 相 比 ， 用 于 
智能 摄像 机 的 软件 程序 和 库 并 没有 那么 多 。 

对 于 智能 摄像 机 来 说 ， 工 业 机 器 视觉 是 其 最 活跃 的 应 用 。 这 是 它们 最 成 功 的 商 
业 领 域 之 一 。20 世纪 80 年 代 时 研发 出 第 一 款 在 机 器 视觉 方面 应 用 的 智能 摄像 
BLU, E20 世纪 90 年 代 以 及 21 世纪 ， 它 们 在 技术 ， 应 用 类 型 和 市 场 份额 这 些 方 
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面 一 直 保 持 快速 增长 。 最 近 ， 机 器 视觉 市 场 的 研究 表明 ， 智 能 摄像 机 将 很 快 占 据 机 
器 视觉 市 场 收入 的 更 大 比重 ””"” 。 事 实 上 ， 欧 洲 供 应 商 对 机 器 视觉 产品 在 2005 年 
以 及 2006 年 的 销售 额 表 示 ， 对 智能 摄像 机 与 视觉 传感器 进行 联合 销售 ， 其 增幅 超 
出 一 倍 ， 远 远 超过 其 他 视觉 产品 的 增长 “”: 。 这 种 快速 增长 的 重要 推动 因素 ,不 仅 
包括 技术 的 进步 ， 如 新 的 固态 传感器 技术 ， 瞬 入 式 计算 机 视觉 系统 的 开发 ， 微 处 理 
带 人 钠 载 能 力 的 改善 以 及 性 能 的 日 益 强 大 ， 而 且 还 包括 潜在 的 成 本 节约 ， 这 是 通过 把 
图 像 采集 ， 处 理 以 及 通信 集成 到 一 个 单元 来 实现 的 。 智 能 摄像 机 制造 商 之 间 的 竞 
争 ， 也 推动 了 摄像 机 质量 的 提高 以 及 价格 的 降低 ,使 它们 更 受 欢迎 ， 从 而 成 为 市 场 
上 的 主流 产品 。 在 机 带 视 觉 方 面 的 智能 摄像 机 能 有 效 地 完成 大 量 特定 应 用 和 任务 ， 
从 而 极 大 地 改善 了 工业 生产 中 产品 的 质量 以 及 生产 效率 。 

















16.3 应 用 和 典型 任务 


工业 自动 化 能 促进 生产 力 的 提高 以 及 竞争 力 的 增强 。 机 天 视觉 是 该 自动 化 的 重 
要 推动 者 。 机 器 视觉 和 智能 摄像 机 的 终端 用 户 行业 包括 制造 业 ， 机 器 人 ， 半 导体 ， 
电子 产品 ， 制 药 业 ， 医 疗 成 像 设 备 ， 食 品 业 ， 包 装 业 ， 印 刷 业 ， 以 及 造纸 业 。 摄 像 
机 执行 的 典型 任务 可 以 分 为 三 大 类 : 质量 控制 、 代 码 和 目标 识别 以 及 过 程 监视 和 控 
制 ， 简 要 介绍 如 下 : 

(D 质量 控制 。 基 于 探伤 检查 的 质量 控制 可 能 是 智能 摄像 机 在 机 器 视觉 中 最 广 
泛 使 用 的 应 用 。 典 型 任务 包括 零件 属性 检查 ， 如 形状 、 颜 色 以 及 纹理 ; 表面 检查 ; 
完整 性 检查 ; 物理 尺寸 的 测量 ; 位 置 检查 〈 例 如 ， 确 定 目标 的 位 置 /或 方向 来 引导 
机 器 人 手臂 )。 

© 代码 和 目标 识别 ， 例 如 按照 一 维 或 二 维 的 方式 读 取 字符 、 解 密 和 矩阵 码 以 及 
校 验 标签 。 这 通常 被 称 为 OCR (光学 字符 识别 ) 和 OCV (光学 字符 验证 ) 。 

C 过 程 监视 和 控制 。 这 类 任务 类 似 于 视频 监控 。 它 们 包括 零件 计数 ， 零 件 分 
类 ， 以 及 不 存在 /存在 检测 。 

通常 ， 这 些 分 类 和 任务 在 现实 世界 的 应 用 是 混合 的 。 许 多 任务 依赖 于 相同 或 相 
似 的 计算 机 视觉 技术 。 例 如 ， 对 这 些 任务 中 的 很 多 来 说 ， 基 于 特征 提取 和 模板 匹配 
的 目标 识别 是 项 必要 的 技术 。 

图 16. 1 所 示 为 一 个 简化 的 自动 零件 分 拣 系 统 ， 它 安装 在 智能 摄像 机 上 。 流 程 
图 的 设计 得 益 于 参考 文献 【96] 。 在 这 个 例子 中 ， 根 据 苹 果 的 体积 ， 系 统 自动 将 它 
们 分 为 大 与 小 。 该 系统 的 基本 组 成 部 分 包括 智能 摄像 机 、 照 明 系 统 、 机 名 人 手臂 以 
及 控制 子 系统 ， 它 能 与 摄像 机 进行 通信 ， 系 统 通过 移动 的 传送 带 ， 把 苹果 提供 给 摄 
像 机 和 机 器 人 手臂 ， 然 后 把 分 好 的 苹果 存储 到 容 需 中 。 照 明 系 统 给 这 些 苹 果 提 供 理 
想 的 照明 。 智 能 摄像 机 给 每 个 苹果 拍照 ， 一 次 一 个 ， 速 度 与 皮带 的 速度 相同 。 摄 像 
机 内 的 智能 图 像 处理 算 法 把 苹果 从 图 片 中 分 割 出 来 ， 提 取 其 轮 廊 ， 并 计算 其 大 小 。 
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然后 ， 把 它 的 体积 与 预先 定义 的 阔 值 进行 比较 ， 判 断 被 检查 的 苹果 是 大 还 是 小 。 苹 
果 按 其 体积 分 类 一 旦 完成 ， 适 当 的 控制 信号 发 送 到 机 器 人 手臂 的 控制 单元 (这 个 
控制 信号 可 以 简单 到 1 比特 ， 用 “1” 代 表 “ 大 ”,“0” 代 表 “ 小 ”)。 使 用 简单 的 
查找 表 ， 该 控制 单元 可 以 确定 机 器 人 手臂 相对 传送 带 的 位 置 与 角度 ， 使 它 能 把 检查 
的 苹果 放 到 适当 的 存储 容 絮 中 。 



































图 16.1 使 用 智能 摄像 机 的 自动 零件 分 拣 系 统 的 实例 











最 近 ， 我 们 已 经 看 到 包括 智能 摄像 机 在 内 的 许多 机 器 视觉 系统 ， 已 经 从 传统 的 
应 用 领域 扩展 到 其 他 具有 挑战 性 的 应 用 领域 ， 如 汽车 业 ， 监 控 和 安全 领域 以 及 交通 
流 的 信息 采集 。 这 些 是 摄像 机 走向 成 熟 的 标志 。 





16.4 摄像 机 的 设计 和 开发 方法 


智能 摄像 机 开发 的 关键 是 选择 硬件 〈 图 像 传 感 融 ， 处 理 带 等 ) 和 软件 〈 库 或 
算法 ) ， 当 它们 协同 工作 时 ， 要 满足 应 用 的 一 些 要 求 。 对 应 用 于 工业 机 器 视觉 ， 智 
能 摄像 机 的 设计 过 程 类 似 于 其 他 应 用 的 设计 过 程 。 对 照明 系统 和 机 械 工程 方面 的 一 
些 考 虑 受到 更 多 的 关注 。 一 般 来 说 ， 智 能 摄像 机 在 机 器 视觉 方面 的 设计 和 开发 ， 在 
其 开始 之 前 要 先 完成 项 目的 定义 阶段 ， 此 阶段 将 对 项 目 范 围 、 环 境 以 及 目的 ,尤其 
在 商业 方面 的 考虑 ， 明 确 地 列 出 来 。 图 16. 2 所 示 为 一 般 的 设计 方法 和 开发 过 程 的 


流程 示意 图 。 
16. 4.1 应 用 需求 及 规范 


对 于 涉及 大 量 投 资 和 相当 大 努力 的 工程 项 目 ， 这 个 阶段 对 它 的 成 功 必 不 可 少 。 
清晰 准确 的 需求 规格 说 明 有 助 于 缩短 开发 周期 和 降低 开发 成 本 。 通 常 这 一 阶段 对 有 
关 以 下 几 个 方面 应 清楚 说 明 ; 
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要 求 和 上 架构 设计 o 概念 证 明 


满足 要 求 
和 说 明 ? 


测试 和 评估 ”Re 一 一 开发 与 实现 
图 16.2 一 般 设 计 和 开发 的 过 程 


CD 应 用 说 明 。 详 细 地 说 明了 有 关 被 检查 的 目标 对 象 和 待 分 析 的 特征 。 例 如 ， 
在 表面 检查 中 ， 判 断 表面 是 否 出 现 故 障 用 什么 特征 (颜色 ， 形 状 ， 纹理 等 ) 。 

© 功能 说 明 。 它 与 应 用 规范 密切 相关 ， 也 包括 了 摄像 机 应 执行 的 主要 任务 。 
也 应 提 到 其 他 所 需要 的 次 要 功能 。 

CD 技术 说 明 。 它 应 包括 主要 任务 所 需 的 关键 参数 和 关键 容 限 。 例 如 ， 图 像 传 
感 需 的 分 辨 率 ， 摄 像 机 与 待 检测 目标 之 间 的 距离 ， 待 检测 目标 所 需 的 总 处 理 时间 
(在 下 个 待 检 目 标 出 现 之 前 ) 。 也 要 说 明 摄像 机 的 外 形 斥 寸 以 及 重量 。 

O 环境 说 明 。 它 应 涵盖 摄像 机 系统 在 物理 和 机 械 方面 的 设置 规范 。 摄 像 头 相 
对 于 被 检 物 件 的 物理 定位 ， 需 要 与 照明 条 件 和 镜头 参数 相 适 应 。 也 应 避免 振动 和 温 
度 过 热 。 

© 约束 说 明 。 它 应 包括 如 项 目的 时 间 框 架 、 总 成 本 、 风 险 管理 这 些 问 题 。 


16.4.2 系统 的 构架 设计 


构架 设计 应 确保 在 容许 的 约束 边界 内 满足 应 用 的 一 些 要求 和 规范 。 应 至 少 包括 
下 面 几 个 要 求 : 

CD 硬件 构架 。 对 整个 摄像 机 的 硬件 零件 以 及 它们 之 间 的 联系 有 具体 的 说 明 ， 
包括 其 中 的 光学 元 件 。 重 要 的 是 ， 图 像 和 视频 处 理子 系统 的 选择 对 摄像 机 性 能 很 
关键 。 

D 软件 构架 。 它 与 硬件 构架 的 设计 密切 相关 。 把 软件 模块 映射 到 硬件 资源 是 
个 具有 挑战 性 的 研究 课题 ， 而 且 它 是 影响 摄像 机 整体 性 能 和 成 本 的 一 个 关键 因素 。 
使 用 商用 版 的 机 器 视觉 库 ， 它 与 硬件 构架 兼容 ， 这 样 可 以 简化 软件 构架 设计 。 对 摄 
像 机 来 说 ， 实 时 操作 系统 的 选择 也 与 硬件 构架 密切 相关 。 用 户 和 控制 接口 应 该 是 软 
件 架 构 规范 的 一 部 分 。 

(3 智能 摄像 机 的 核心 技术 是 面向 特定 应 用 的 图 像 处 理 和 模式 识别 (IPPR) 算 
法 。 要 实现 从 头 开发 智能 摄像 机 软件 这 个 目的 ， 这 些 算 法 的 可 重用 性 和 移植 性 必 不 
可 少 。 使 用 市 场 上 能 买 到 的 IPPR 库 或 IP (知识 产权 ) 库 可 以 得 到 这 些 算法 。 有 些 
算法 需要 在 源 代 码 下 定制 才能 使 用 。 
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(4) 使 用 智能 摄像 机 开发 平台 成 为 可 能 。 使 用 商业 版 或 完善 的 智能 摄像 机 开发 
平台 能 降低 构架 设计 的 风险 以 及 设计 和 开发 的 成 本 ,但 是 遗憾 的 是 ， 思 今 为 止 , 在 
市 场 上 没有 太 多 这 样 的 平台 。 值 得 一 提 的 是 ， 近 日 索尼 发 布 了 两 款 智能 摄像 机 开发 
系统 ，XCI- SX1 和 XCI- V3。SCI- SX1 集成 了 SXGA CAD Ff fe ds fll AMD Geode- 
GX533 400 MHz 处 理 器 ， 运 行 的 是 MontaVista Linux 操作 系统 2 。 设 计 摄 像 机 平台 
是 为 了 给 OEMs (原始 设备 制造 商 ) 、 系 统 集成 者 以 及 视觉 工具 软件 制造 商 提供 一 
种 鲁 棒 的 部 件 ， 它 以 独立 插件 模块 的 形式 把 成 像 装 置 、 智 能 处 理 和 硬件 接口 结合 起 
来 ， 使 得 开发 和 集成 变 得 更 加 容易 。 

@) 光学 系统 。 光 学 子 系统 的 设计 对 智能 摄像 机 或 任何 摄像 机 的 整体 性 能 都 很 
关键 。 即 使 是 理想 的 照明 ， 镜 头 的 正确 选择 和 光学 器 件 的 设置 都 有 助 于 获得 清楚 且 
无 像 差 的 图 像 。 

© 照明 系统 。 当 照明 系统 不 是 摄像 机 系统 的 一 部 分 ， 不 能 低估 适当 的 照明 对 
鲁 棒 的 机 器 视觉 解决 方案 的 重要 性 。 完 善 的 校准 照明 系统 对 于 确保 摄像 机 在 亮度 具 
有 良好 的 对 比 度 和 一 致 性 时 识别 /确认 零件 或 者 零件 的 特征 (如, 颜色) 是 重要 
的 。 挑 选 适当 的 照明 类 型 需要 考虑 参数 ， 其 中 的 参数 包括 波长 ， 亮 度 和 均匀 度 ， 在 
很 多 情况 下 ， 它 们 与 图 像 处 理 软件 的 一 些 要求 相 关 。 

D 校准 机 制 。 校 准 的 作用 是 确保 摄像 机 在 各 方面 都 一 致 的 条 件 下 工作 ， 这 对 
摄像 机 的 鲁 棒 性 和 性 能 很 重要 。 当 视觉 系统 中 涉及 多 个 摄像 头 时 ， 其 中 它们 是 一 起 
工作 的 ， 校 准 变 得 更 重要 。 


16.4.3 ”概念 仿真 


这 个 阶段 是 可 选 的 。 假 设 IPPR 算法 已 经 选 定 ， 对 使 用 另 一 个 计算 平台 的 算法 
以 及 性 能 假设 ， 这 个 阶段 有 助 于 对 它们 进行 测试 和 验证 ， 如 在 PC 机 上 连接 一 个 通 
用 的 工业 摄像 机 ， 或 者 使 用 适当 的 仿真 工具 。 这 个 阶段 的 结果 提供 的 反馈 对 构架 的 
设计 阶段 很 有 用 。 在 一 些 情况 下 ， 这 个 阶段 也 包括 ， 人 研究 创造 新 的 算法 去 满足 特定 
的 功能 。 
16.4.4 FA, SM, EK 

这 个 阶段 可 能 是 项 目 最 耗 时 的 阶段 ， 完 成 后 能 提供 摄像 机 的 工程 样机 。 这 个 阶 
段 的 关键 任务 是 IPPR 算法 转换 ， 可 能 是 把 原来 的 高 级 编程 语言 转换 到 硬件 更 通用 
语言 ， 如 汇编 语言 或 VHDL ( VHSIC 硬件 描述 语言 ，VHSIC 置 于 超 高 速 集成 电 
路 ) ， 这 些 转换 由 所 选择 的 能 入 式 处 理 器 来 完成 。 
























































名 ”索尼 第 一 代 智 能 摄像 机 .有 关 信息 公布 在 索尼 网 站 上 ， 并 于 2009 年 1 月 能 被 访问 。 
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16.4.5 测试 与 评估 


在 实际 使 用 场景 和 物理 环境 下 ， 它 包括 现场 测试 和 性 能 评估 ， 确 保 摄 像 机 满足 
应 用 的 一 些 要 求 ， 并 测试 机 械 接口 和 电气 接口 ， 以 找 出 潜在 的 问题 和 可 能 的 改进 方 
法 ， 进 一 步 对 摄像 机 性 能 的 大 多 数 技术 要 求 进行 基准 测试 。 结 果 可 作为 上 述 任何 阶 
段 的 反馈 去 调整 或 完善 系统 。 这 个 阶段 产生 的 其 他 和 输出， 还 包括 校准 方案 ， 文档， 
以 及 维护 手册 。 











16.5 机 器 视觉 的 摄像 机 系统 


一 般 来 说 ， 摄 像 机 系统 包括 透镜 ， 图 像 采 集 设备 ， 相 关 存 储 右 和 数据 总 线 的 图 
像 处 理 器 以 及 通信 信道 。 本 节 将 仔细 研究 ， 当 完成 摄像 机 系统 的 结构 设计 时 ， 在 这 
些 方面 的 需要 考虑 。 我 们 也 研究 了 一 些 实时 操作 系统 ， 这 些 系统 被 智能 摄像 机 用 于 
机 器 视觉 方面 。 


16. 5.1 光学 器 件 


摄像 机 系统 的 光学 融 件 与 照明 系统 共同 帮助 摄像 机 去 识别 聚焦 的 对 象 ， 并 保持 
对 比 度 良 好 、 清 晰 度 高 、 信 品 比 高 而 且 失 真 最 小 。 对 摄像 机 系统 来 说 ， 了 解 光学 原 
理 是 选择 理想 匹配 镜头 的 基础 。 其 中 的 重要 参数 包括 目标 与 摄像 头 的 距离 ， 焦 距 ， 
视 场所 需 的 深度 ， 以 及 光圈 : 。 当 用 于 机 器 视觉 时 ， 参 考 文献 ”” 全 面 涵盖 了 有 昭 
明和 光学 系统 的 相关 问题 。 


16.5.2 ”图像 采集 


图 像 采 集 是 摄像 机 “看 到 ”的 东西 。 该 图 像 采 集 单 元 或 摄像 机 前 端的 主要 组 
成 部 分 ， 本 质 上 是 固态 图 像 传 感 器 。 该 图 像 传 感 吉 为 智能 摄像 机 或 任何 摄像 机 的 眼 
睛 。 目 前 ， 可 以 选择 的 主要 有 两 种 固态 图 像 传感器 ，CCD 和 CMOS, KURER KE HY 
主要 技术 参数 包括 分 辩 率 ， 帧 速率 ， 扫 描 类 型 ， 灵 人 敏 度 和 噪声 水 平 。 对 机 器 视觉 摄 
像 机 ， 包 括 智能 摄像 机 来 说 ，CCD 传感器 仍然 占 主导 地 位 ,但 CMOS KRIER at 
的 应 用 日 趋 广泛 。 目 前 ， 在 对 图 像 质量 和 灵敏 度 要 求 不 是 很 高 的 应 用 或 环境 中 ， 采 
用 CMOS 传感器 ， 例 如 ， 如 执行 简单 的 不 存在 /存在 检查 任务 。 

CCD 传感器 的 优点 主要 包括 灵敏 度 高 ， 噪 声 低 ， 技 术 成 熟 ， 支 持 标准 化 电路 。 
与 CCD 相 比 ，CMOS 成 像 技术 相对 较 新 ， 但 其 市 场 份额 快速 增长 。 智 能 摄像 机 ， 
包括 机 器 视觉 ， 之 所 以 在 许多 领域 得 到 普及 ， 最 重要 的 一 个 因素 是 CMOS 图 像 传 感 
器 的 出 现 。 与 CCD 传感器 相 比 ，CMOS 主要 优势 在 于 尺寸 较 小 ， 制 造成 本 较 便 宜 ， 
功 耗 较 低 ， 具 备 建立 片上 摄像 机 的 能 力 ， 把 智能 处 理 电 路 集成 在 传感器 芯片 上 的 能 
H, 使 摄像 机 系统 设计 的 极 大 简化 。 当 前 已 经 具备 了 把 图 像 处 理 算法 和 电路 集成 在 
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芯片 上 的 能 力 ， 使 得 制造 片上 智能 摄像 机 或 智能 传感器 成 为 可 能 。 这 些 摄像 机 具有 
非常 小 的 外 形 ， 当 物理 空间 或 者 功 耗 非 常 有 限时 ， 这 种 外 形 很 有 用 。 有 对 数 特征 的 
CMOS 图 像 传感器 比 起 标准 的 传感器 有 较 高 的 动态 范围 ， 使 它们 在 应 用 于 高 动态 范 
围 时 是 个 非常 好 的 选择 。 


16.5.3 HBNZCANIEZE 


TA SU RAE ae E B to RLY Rp, FCR ES ST Fr UL HH E JE PR t 
控制 器 ， 如 运行 在 8MHz 的 Z80 (在 20 世纪 80 年 代 ) ， 今 天 的 智能 摄像 机 使 用 强 
大 的 微 处 理 器 ， 如 TI (德州 仪器 ) 的 C6x DSP (数字 信和 号 处 理 器 ) ， 它 运行 在 
1GHz 或 者 超过 1CHz'* i。 在 用 于 机 器 视觉 时 ， 大 多 数 智能 摄像 机 所 使 用 的 处 理 器 
基本 上 有 四 种 类 型 : 

中 通用 的 台式 机 或 般 入 式微 处 理 器 。 例子 有 Intel Pentium, Celeron, AMD 
Geode 处 理 器 ，PowerPC 和 MIPS。 它 们 相对 廉价 且 使 用 灵活 。 然 而 ， 这 些 人 处理 带 是 
通用 的 ， 对 于 实时 图 像 处 理 任务 不 理想 ,尤其 当 处 理 高 分 辨 率 和 /或 高 帧 率 图 像 传 
感 费 输出 的 图 像 时 。 

D 数字 信和 号 处 理 器 。 它 们 一 般 为 图 像 处理 算 法 提供 更 高 的 性 能 。 典 型 的 例子 
是 TI 的 DSP, 

© 媒体 处 理 器 。 媒 体 处 理 器 可 以 认为 是 一 种 特殊 的 DSP。 它 在 灵活 性 和 成 本 
效益 之 间 有 很 好 的 权衡 。 它 们 通常 有 一 个 高 端的 DSP 核心 , 采用 了 SIMD ( 单 指令 
多 数据 流 ) 和 VLSI (超大 规模 集成 电路 ) 的 技术 体系 结构 ， 并 且 在 片上 集成 了 党 
用 的 一 些 媒 体外 部 设备 ， 如 视频 端口 ， 连 网 支持 和 其 他 高 速 数 据 端口 ']。 媒 体 处 
理 器 的 实例 有 Philips TriMcdia 和 TI 的 DM64x。 

D HARA SADE AREY) FPGA (现场 可 编程 门 阵 列 ) 。 对 于 内 人 式 视 觉 系统 来 
说 ， 如 智能 摄像 机 ， 最 近 FPGA 成 为 其 硬件 平台 的 最 佳 选 择 ， 尤 其 在 学 术 界 和 研究 
领域 中 。FPGA 最 重要 的 优势 之 一 是 能 利用 许多 内 在 视觉 算法 的 并 行 能 力 。 许 多 
FPGA 制造 商 把 微 处 理 器 娩 入 到 FPGA， 使 它 更 通用 且 处 理 能 力 更 强大 。 例 如 ， 
Xilinx 把 PowerPC fA BIE TTA Ym Virtex FPGAs 中 ， 而 Altera 公司 在 它们 的 Stratix 
FPGA 提供 Nios IL, 

MADER EKA UMD ba E, RE R BET PEA Be KRAE ASA] ( IPPR) 
算法 的 复杂 性 必须 要 一 并 考虑 。 把 IPPR 算法 映射 到 能 人 式 处 理 器 体系 结构 中 是 一 
个 具有 挑战 性 的 研究 课题 。 


16.5.4 操作 系统 


操作 系统 (OSes) 的 使 用 ,尤其 是 舱 入 式 和 实时 操作 系统 ， 需 要 运行 舱 入 式 
处 理 器 ， 它 对 智能 摄像 机 的 开发 和 运行 时 的 性 能 带 来 许多 好 处 。 这 些 好 处 包括 支持 
内 存 管 理 ， 网 络 化 ， 进 程 间 的 通信 ， 实 时 计算 和 高 级 设计 语言 ， 如 C 和 C ++ 。 除 
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了 摄像 机 制造 商 提供 的 专 有 操作 系统 ， 热 门 的 通用 操作 系统 ”包括 : 

D 台式 机 操作 系统 。 实 例 有 Windows, Linux 和 MS- DOS, 

D 栅 入 式 操作 系统 。 山 入 式 操 作 系 统 是 用 于 般 入 式 系 统 的 操作 系统 。 实 例 包 
fff Windows CE, Windows XP te Ast MIX AX Linux, — ERA SX ERE St, UM 
Windows XP Embedded， 本 来 不 是 实时 操作 系统 ， 但 它 可 以 增加 实时 功能 ， 并 对 其 
进行 优化 ,来 满足 实时 性 要 求 。 

© 实时 操作 系统 或 RT 操作 系统 ， 实 例 有 RTLinux, pSOS, QNX RTOS, 

给 智能 摄像 机 的 开发 选择 操作 系统 时 ， 应 该 考虑 软件 开发 工具 的 兼容 性 问题 。 


16.5.5 输入 输出 和 通信 协议 


热门 的 通信 协议 ， 包 括 Camera Link, Gigabit Ethernet 或 GigE Vision, Firewire 
(IEEE 1394) , USB 2, RSZ32, Camera Link 和 小 范围 的 Gigabit Ethernet 适用 于 高 
带宽 系统 ，Firewire 和 USB 更 适合 低 带 宽 的 应 用 。Camera HI 可 以 是 模拟 的 ， 也 可 
以 是 数字 的 。 它 们 支持 外 部 事件 的 触发 输入 、 摄 像 机 和 视觉 系统 组 件 之 间 的 同步 以 
及 控制 外 部 设备 ， 如 可 编程 逻辑 控制 器 。 























16.6 智能 摄像 机 在 机 器 视觉 方面 的 算法 


16.6.1 应 用 特征 


智能 摄像 机 之 所 以 智能 的 原因 在 于 摄像 机 不 仅 能 看 也 能 够 思考 以 及 做 出 决定 ， 
这 是 由 于 在 摄像 机 内 部 运行 的 图 像 处 理 和 模式 识别 (IFPR) 算法 。 一 般 来 讲 ， 这 
些 IFPR 算法 在 机 融 视 觉 的 环境 和 条 件 下 能 更 好 地 工作 ， 这 是 智能 摄像 机 在 工业 机 
器 视觉 比 在 视频 监控 和 其 他 应 用 中 更 成 功 一 个 重要 原因 。 换 句 话说， 比 起 那些 视频 
监控 摄像 机 所 面临 的 不 确定 因素 , 像 天 气 和 照明 条 件 ， 不 同 对 象 的 移动 ， 遮 挡 等 
等 ， 对 于 机 带 视 觉 摄像 机 来 说 ， 其 应 用 要 求 较 少 ， 受 到 限制 。 因 此 ， 机 带 视 觉 的 
IFPR 算法 更 能 实现 鲁 棒 性 和 可 靠 性 ， 在 现实 中 的 应 用 以 及 实际 的 商业 产品 中 ， 
IFPR 算 法 是 必要 的 关键 因素 。 与 视频 监控 相 比 ， 机 器 视觉 有 以 下 优点 : 

CD 需要 分 析 的 对 象 一 般 不 是 人 类 或 者 一 些 不明 物 ， 而 往往 是 固定 的 或 者 可 以 
预见 其 大 小 ， 形 状 ， 颜 色 以 及 其 他 特征 的 对 象 。 如 果 对 象 发 生 移 动 ， 通 常 以 已 知 路 
径 进 行 移动 。 

(2) 在 室内 使 用 时 ， 能 容易 地 实现 理想 一 致 的 照明 条 件 ; 

© 选择 专用 且 匹 配 的 照明 光源 有 助 于 实现 最 佳 对 比 度 ; 

Gp 如 果 存 在 遮挡 的 话 ， 可 以 把 问题 最 小 化 ; 

C 对 于 已 知 的 静态 背景 ， 应 用 背景 模型 可 使 问题 简化 ; 

© 只 需要 有 限 的 物体 模型 便 可 用 于 识别 ; 
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CD 需要 人 的 运动 跟踪 和 行为 识别 。 

男 一 方面 ， 与 其 他 类 型 的 摄像 机 相 比 ， 对 机 融 视 觉 摄像 机 提出 的 要 求 更 苛刻 ， 
例如 ， 高 速 分 析 ， 高 精度 ， 较 低 的 误 检 率 。 这 些 因 素 是 智能 摄像 机 的 本 质 要 求 ， 直 
接 影 响 着 生产 效率 。 


16.6.2 通用 的 处 理 链 


虽然 在 机 器 视觉 中 不 太 重 视 运 动 分 析 和 视频 处 理 ， 但 是 对 于 智能 摄像 机 在 机 器 
视觉 方面 来 说 ， 通 用 的 PPR 处 理 链 与 视频 监控 的 处 理 链 是 相似 的 。 图 16. 3 所 示 为 
智能 摄像 机 用 于 机 器 视觉 目的 的 通用 IPPR 处 理 链 。 如 图 中 所 示 ， 流 程 图 可 分 为 三 
个 阶段 : 信号 /图 像 层 次 的 处 理 ， 特 征 / 对 象 层次 的 处 理 和 语义 /决策 层次 的 处 理 。 


EN 





信和 号 层 特征 和 目标 层 语义 或 判决 层 





图 16.3 智能 摄像 机 用 于 机 器 视觉 目的 的 通用 IPPR 处 理 链 





有 必要 的 话 ， 信 和 号 或 图 像 层次 的 处 理 就 是 为 了 实现 图 像 增强 和 线性 变换 。 这 是 
因为 即使 精心 选择 了 摄像 机 前 端 、 镜 头 、 照 明和 光学 设置 ， 但 图 像 的 质量 仍然 达 不 
到 要 求 ， 还 需 进一步 改善 。 图 像 的 增强 有 许多 技术 ， 如 通过 低 通 滤波 对 图 像 进行 平 
滑 处 理 。 变 换 技 术 包括 灰 度 变换 ， 辐 射 校准 ， 仿 射 变换 ， 投 影 变换 。 线 性 变换 
的 目的 是 确保 图 像 中 感 兴趣 的 目标 处 于 一 臻 的 位 置 和 (或 ) 方向， 以便 使 随后 的 
处 理 阶 段 变 得 简单 。 

在 智能 摄像 机 的 核心 ， 特 征 和 对 象 层次 的 处 理 目标 是 完成 特征 提取 和 对 象 识 
别 / 确 认 。 包 括 计算 图 像 的 预定 义 特征 ， 以 便 它们 (这 些 特征 ) 可 以 用 来 识别 感 兴 
趣 的 对 象 。 从 图 像 到 特征 集 向 量 的 这 种 转换 大 大 降低 了 进一步 处 理 时 的 数据 量 。 特 
征 向 量 通常 比 图 像 本 身 更 具 噪 声 鲁 棒 性 。 图 像 分 制 ， 或 感 兴趣 区 域 的 识别 ， 通 常 是 
特征 提取 的 第 一 阶段 或 者 有 时 可 以 作为 特征 提取 的 全 部 需要 。 常 见 的 特征 包括 形 
AR, 轮廓， 颜色 ,纹理 和 大 小 。 边 缘 检 测 与 提取 是 最 常用 的 分 割 技术 之 一 。 形 态 学 
操作 和 几何 拟 合 可 以 用 来 提高 分 割 结果 。 模 式 识 别 搁 术 可 以 用 来 识别 基于 特征 的 感 
兴趣 对 象 。 最 常用 的 技术 之 一 是 模板 匹配 。 最 近 ， 我 们 已 经 见证 了 把 基于 神经 网 络 
的 对 象 识别 算法 能 入 到 智能 摄像 机 的 机 器 视觉 中 5 。 

语义 或 决策 层次 的 处 理 包 含 了 智能 摄像 机 中 所 有 的 工作 。 上 一 阶段 处 理 产生 的 
特征 或 对 象 与 预定 义 的 测试 标准 ， 参 考 特征 或 者 参考 对 象 进行 比较 ， 然 后 对 正在 讨 
论 的 对 象 做 出 “正常 ”与 否 ( 故障 零件 ) 的 决定 。 如 果 是 “正常 ”， 除 了 收集 一 
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些 用 于 统计 分 析 目 的 的 数据 外 ， 不 采取 任何 行动 ; 如 果 不 是 “正常 ”， 控 制 信号 被 
发 送 到 执行 器 或 设备 ， 使 出 现 故 障 的 零件 补 人 处理 (例如 ， 放 入 垃圾 桶 或 者 附 上 标 
记 )。 


16.6.3 软件 和 库 


软件 开发 商 提供 了 一 些 用 于 机 器 视觉 应 用 的 库 ， 如 在 16.3 节 中 所 描述 的 ， 建 
立 了 一 些 IPPR 技术 。 根 据 参 考 文献 【602 ] ， 机 器 视觉 软件 可 以 分 为 三 种 类 型 ; 

D 基于 库 的 软件 。 这 是 基于 PC 视觉 系统 的 典型 解决 方案 。 开 发 者 可 以 从 库 中 
调用 低级 别 的 IPPR 算法 ,而且 可 以 专注 于 功能 和 /或 应 用 程序 的 开发 。 

D 封闭 系统 。 这 是 指 安装 软件 可 执行 文件 ， 把 特定 的 硬件 体系 结构 作为 目标 ， 
文 持 用 户 定 制 的 特定 功能 而 不 是 功能 的 开发 。 用 户 不 必 熟 练 机 器 视觉 编程 。 然 而 ， 
这 种 类 型 的 软件 比 起 基于 库 类 型 的 软件 缺乏 灵活 性 。 

@) 基于 组 件 的 系统 。 这 些 可 能 是 基于 微软 的 COM (组 件 对 象 模型 ) 体系 结构 
以 及 封装 面向 任务 的 机 器 视觉 的 功能 ~]。 

MVTec Halcon 数据 库 ' 引 是 基于 库 的 系统 。Halcon 库 提供 一 些 算法 ， 这 些 算法 
包括 基于 ROI ( 感 兴趣 区 域 ) 建 模 来 找到 物体 的 形状 匹配 法 ，Blob 分 析 ， 测 度 
(一 维和 三 维 ) ， 边 缘 检测 ， 边 缘 线 提取 ， 轮 廓 处 理 ， 模 板 匹 配 以 及 彩色 处 理 。 最 
近 ， 德 克 萨 斯 仪器 (TD) 为 视觉 系统 和 智能 摄像 机 的 开发 者 发 布 了 免 版 税 的 VLIB 
的 软件 库 .2VLIB 经 过 TI 的 TMS3200C64x 处 理 器 的 优化 ， 它 包含 40 多 个 软件 包 ， 
大 范围 地 应 用 于 机 器 视觉 ， 视 频 监 控 等 等 。 另 一 种 用 于 计算 机 视觉 的 热门 开源 库 是 
英特尔 的 OpenCV fe, PUN, Vision Components , 智能 摄像 机 方面 的 一 个 德国 制造 
Hj, 已 经 把 OpenCV 改编 为 专 有 的 实时 操作 系统 ， 并 把 它 在 所 有 的 智能 摄像 机 中 
KHE 





























16.7 机 器 视觉 智能 摄像 机 的 实例 


本 节 中 ， 我 们 来 看 看 最 近 这 些 年 在 机 絮 视 觉 市 场 已 经 存在 的 一 些 智能 摄像 机 。 
3& 16.1, 很 大 程度 上 是 根据 安德鲁 . 威尔逊 在 2006 年 “市 场 上 智能 摄像 机 抽样 ” 
的 调查 结果 "1 ， 结 果 显 示 在 从 一 些 大 的 制造 商 和 供应 商 中 选择 智能 摄像 机 时 ， 应 
该 专注 于 它们 重要 的 体系 结构 和 软件 、 特 点 ， 比 如 图 像 传感器 的 类 型 和 准确 度 、 髓 
人 和 人 式 处 理 器 、 操 作 系统 (0S) 、 通 入 式 软件 以 及 开发 工具 。 原 表 也 显示 了 许多 被 挑 
选 摄像 机 的 O 接口 和 通信 接口 ， 这 些 常 用 的 接口 有 Ethernet, USB 及 RS232 。 







































































O VLIB 软件 库 , 有 超过 40 种 免 版 税 的 核心 程序 。 信 息 于 2008 年 12 月 公布 在 德州 仪器 的 网 站 上 ， 并 于 
2009 年 1 月 能 被 访问 。 
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表 16.1 市 场 上 智能 摄像 机 的 样 例 "* i (“/” 表 示 无 法 获得 数据 ) 
公 司 摄像 机 传感器 处 理 央 操作 系统 Ao dT 
Halcon, Insta- 
Analogic Bi- I V301 CMOS1280 x 1024 TI DSP windows/ Linux 
ntVision 
Basler exA1600- 14m/-14c] CCD 1624 x 1236 MIPS Linux Halcon 
Cognex DVT552C CCD 640 x 480 TI DSP DSP/BIOS DVT Intellect s/w 
JAI TS-2030EN CCD 1920 x512 Power PC Linux / 
Matrox Imaging 
Matrox Tris P700 CCD 1024 x 768 Inter Windows 
Library 
Imaging ULP Celeron CE. NET 4. 2 
NI1700 series CCD 1280 x 1024 TI DSP, Real- time OS 
National Power PC Vision Builder for 
Automated Inspec- 
Instruments 
tion, LabVIEW 
PC s/w develop- 
Neuricam NC-5300 PCam CMOS 640 x 480 NS Geode Linux 
ment tools 
Rhapsody C/C ++ 
Philips Inca 320 CMOS 1280 x1024 | Philips TriMedia pSos 
or Clicks GUI 
Haclon, Euresys'e- 
Linux/Windos 
Sony XCI- SXI CCD 1280 x 1024 AMD Geode XP. Vision, FDS imaging 
e 
s/w 
Vision VC4458 CCD 640 x480 TI RTOS VC Lib Image 
Components DSP Processing Library 
像素 高 达 
Elphel 353/363 FPGA / 
5M 的 CMOS 
Fast Vision FsatCamera40 CMOS 2352 x 1728 |FPGA, Power PC Linux / 
FPGA, x86 
Sony XCI- V100 CCD 640 x480 Windows XPe | / 
compatible 
FPGA, 
Tattile MIA CCD 1024 x768 RTLLinux / 
XScale 
BARM 
ps FPGA, ActiveX controls 
Wintriss ”| OPSIS 5150/7500 | FHI CCD VxWorks 实时 
PowerPC Library 














操作 系统 
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16.8 机 器 视觉 智能 摄像 机 的 未 来 


智能 摄像 机 在 机 器 视觉 方面 前 途 光 明 ， 在 未 来 几 年 内 智能 摄像 机 在 现实 世界 的 
主要 应 用 仍然 是 机 絮 视 觉 。 在 全 球 制造 业 中 ， 自 动 化 已 经 应 用 于 许多 合适 的 应 用 。 
因此 ， 对 于 机 需 视 觉 和 智能 摄像 机 来 说 ， 其 增长 范围 仍然 非常 大 。 技 术 进 步 和 商业 
需要 (追求 生产 力 的 提高 ) 将 继续 推动 其 范围 的 增长 。 更 多 行业 对 产品 标准 和 产 
品 开发 的 支持 也 将 有 助 于 此 增长 。 展 望 未 来 ， 我 们 认识 到 智能 摄像 机 在 机 絮 视 觉 方 
面 未 来 的 趋势 或 挑战 。 

一 般 的 趋势 和 应 用 : 

CD 智能 摄像 机 的 功能 在 集成 度 和 灵活 性 将 继续 提高 。 通 过 提高 能 和 人 式 软 硬件 
的 能 力 和 性 能 以 及 通过 一 些 经 验 ， 它 们 会 变 得 容易 。 

D 智能 摄像 机 的 机 器 视觉 很 使 其 在 制造 业 中 的 应 用 更 上 一 层 楼 ， 如 视频 监控 ， 
汽车 监控 。 

@) 标准 化 和 集成 的 支持 是 必要 的 ， 它 有 助 于 把 智能 摄像 机 部 署 到 完善 的 工业 
自动 化 和 控制 系统 中 ， 特 别 在 制造 业 。 这 种 集成 可 以 发 生 在 几 个 层次 上 ， 如 机 械 、 
电气 、 校 准 、 同 步 和 数据 通信 等 不 同 层次 。 这 些 类 型 的 集成 使 智能 摄像 机 顺利 推 
出 ， 而 且 使 智能 摄像 机 的 好 处 更 迅速 地 显示 出 来 1。 

硬件 与 摄像 机 系统 : 

(D 与 CCD 比较 ，CMOS 图 像 传感器 继续 增加 其 在 市 场 的 份额 。 图 像 传 感 器 分 
辩 率 将 继续 增加 ， 而 其 价格 将 会 降低 。 较 高 分 辩 率 的 摄像 机 一 般 使 其 应 用 的 质量 
提高 。 

D 由 于 在 桌面 计算 中 取得 了 64 位 处 理 的 跨越 ， 它 在 视觉 系统 中 反映 出 来 ， 至 
少 在 一 些 智能 摄像 机 系统 中 ,增加 了 处 理 器 的 实时 性 能 和 能 

@) 般 入 式 处 理 器 的 体系 结构 很 可 能 从 单一 的 处 理 器 体系 结构 到 多 人 处 理 器 体系 
结构 。 多 处 理 器 可 能 涉及 异 构 处 理 器 ， 如 在 前 面 的 处 理 链 中 DSP 的 FPGA， 这 样 能 
利用 不 同类 型 处 理 器 带 来 好 处 。 

D 立体 视觉 和 三 维 视觉 将 会 变 得 更 加 成 熟 。 

© 在 非 可 见 光 谱 范 围 内 工作 的 摄像 机 ， 如 X- 射线 、 紫 外 线 和 红外 摄像 机 ， 将 
越 来 越 受 欢迎 ， 而 且 其 应 用 范围 将 更 广 。 尤 其 是 ， 红 外 摄像 机 会 在 机 器 视觉 方面 找 
到 更 多 的 应 用 ， 因 为 在 加 工 密集 型 产业 中 ， 热 红外 伪 影 被 认为 是 流程 诊断 的 关键 
ZUR ae > 

© 我 们 会 看 到 更 多 无 线 智 能 摄像 机 和 智能 摄像 机 网 络 在 机 器 视觉 中 的 应 用 。 
无 线 摄像 机 使 摄像 机 的 物理 部 署 很 灵活 。 智 能 摄像 机 网 络 推动 立体 视觉 和 三 维 视觉 
的 实现 。 

D 在 智能 摄像 机 中 采用 FPGA 会 变 得 更 容易 ， 能 增强 智能 摄像 机 的 灵活 性 以 
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及 可 重复 编程 的 能 

软件 与 智能 算法 : 

CD 舱 入 式 机 器 学 习 和 人 工 智 能 技术 ， 给 机 器 视觉 系统 提供 前 所 未 有 的 性 能 和 
灵活 性 。 它 们 使 智能 摄像 机 新 的 应 用 以 及 新 的 性 能 水 平成 为 可 能 。 

D 在 智能 摄像 机 的 优化 判决 处 理 中 ， 神 经 网 络 和 模糊 逻辑 技术 成 为 机 器 视觉 
的 关键 智能 范例 。 例 如 ， 当 需要 根据 主观 场景 分 析 作 出 决定 时 ， 这 些 技术 能 更 好 地 
TSB A TR AY ORO 。 

O 软件 将 变 得 易 使 用 ， 使 越 来 越 多 的 软件 与 用 于 运行 此 类 软件 的 底层 硬件 分 
JF, 这 都 是 因为 它 的 性 价 比 升 高 '™]。 

@ 最 近 ， 出 现 了 自 适应 机 器 视觉 算法 ， 该 算法 能 在 场景 环境 发 生 改 变 时 仍 保 
持 良 好 的 性 能 ， 如 照明 条 件 的 改变 。 这 些 智能 算法 有 助 于 简化 未 来 机 器 视觉 系统 以 
及 降低 成 本 。 

通信 接口 和 1/0 接口 : 

D Gigabit Ethernet 和 Camera Link 将 会 在 高 速 和 高 带宽 的 系统 中 占 主导 地 位 。 

D 对 于 多 个 摄像 机 系统 和 长 距离 的 应 用 (在 摄像 机 和 控制 系统 之 间 ) 光纤 通 
道 接口 会 变 得 更 重要 "3]。 

© 带 有 以 太 网 供电 (PoE) 的 Gigabit Ethernet 智能 摄像 机 会 变 得 受 欢迎 ， 它 
提供 以 太 网 供电 电缆 (在 高 达 100m 的 距离 ) ， 不 再 需要 单独 的 电源 电缆 。 

一 些 标准 和 开发 的 支持 : 

D 进一步 实现 标准 化 ， 有 利于 稳定 性 、 互 操作 性 、 通 信和 以 及 组 件 、 软 件 模块 、 
植 和 人 技术 和 服务 的 集成 。 标 准 化 会 鼓励 更 多 的 小 公司 参与 到 摄像 机 的 开发 ， 目 前 提 
供 端 到 端 解决 方案 的 大 公司 占据 着 主导 地 位 。 

(2 GenlCam"" ，EMVA (欧洲 机 器 视觉 协会 ) 推动 的 标准 ， 为 未 来 智能 摄像 
机 提供 集成 上 的 支持 。GenICam 的 目标 是 提供 通用 类 : 用 于 各 种 摄像 机 的 编程 接 
口 。 无 论 它们 使 用 什么 接口 技术 (GigE Vision, Camera Link, 1384 DCAM (基于 
1394 数字 摄像 机 规范 ) ，USB 等 ) ， 或 者 它们 正在 实现 什么 功能 ， 应 用 程序 编程 接 
口 (API) 应 保持 不 变 。 

(3) 更 通用 的 智能 摄像 机 开发 平台 和 更 成 熟 的 设计 方法 将 会 出 现 ， 它 有 助 于 开 
发 者 ， 而 且 缩短 新 产品 或 新 应 用 到 市 场 的 时 间 。 





















































16.9 机 器 视觉 资源 





在 本 节 中 ， 我 们 为 读者 提供 了 一 些 与 智能 摄像 机 和 机 器 视觉 有 关 的 在 线 资 源 和 
其 他 资源 。 这 节 中 所 列 的 这 些 网 站 和 网 页 在 2009 年 4 月 已 经 被 访问 和 验证 。 
摄像 机 的 制造 商 和 供应 商 : 
智能 摄像 机 在 机 天 视觉 方面 的 应 用 ， 世 界 上 有 很 多 这 类 的 制造 商 和 供应 商 ， 他 
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们 主要 集中 在 西欧 国家 ， 特 别 是 德国 ， 还 有 北美 以 及 日 本 。 下 面 这 个 非 详 尽 的 清单 
是 这 些 公 司 ， 连 同 原 产地 、 主 要 产品 以 及 公司 或 产品 的 网 页 。 

(D AIT Goehner. Germany. Smart cameras, vision sensors. 

http: //www. optischepruefsysteme. de/ 

(2) Allied Vision technologies. Germany. Smart cameras. 

http://www. alliedvisiontec. com/avt- products/cameras. html 

(3) Asentics. Germany. Smart cameras. 

http: //www. asentics. de/english/index. htm 

(4) Basler. Germany. Smart cameras. 

http: //www. baslerweb. com/ 

(5) Baumer. Germany. Vision sensors. 

http: //www. baumerinspection. cam/products 1. html? &L =1 

© Camsensor. New Zealand. Smart cameras. 

http: //www. camsensor. com/smartcamera. htm 

@ Cognex Vision Systems. USA. Smart cameras, micro vision systems. 

http: //www. cognex. com/ProductsServices/ VisionSystems/DVT, aspx? id = 166 

Datadsensor. Italy. Smart cameras, vision sensors. 

http: //www. vision- sensors- illuminators. com/# 

(9) EVT Eye Vision Technology. Germany. Smart cameras, vision sensors. 

http: //www. evt- web. com/en/home/ 

(0 Imaging Solutions Group. USA. Area and line scan smart cameras. 

http://www. isgchips. com/Templates/t_camera. htm 

(D JAI. Denmark. Smart cameras, including infrared, ultraviolet. 

http: //www. jai. com/EN/ CameraSolutions/ Pages/ Home. aspx 

(2 ISRA Vision. Germany. Smart cameras, vision sensors. 

http: //www. isravision. com/ 

(3 Matrix Vision. Germany. Smart cameras, vision sensors. 

http://www. matrix- vision. com/products. php? lang = en 

(4 Matrox Eletronic Systems. Canada. Immersion-resistant and extremely rugged 
smart cameras. 

http: //www. matrox. com/irnaging/ products/smart, cameras. cfm 

(5 Microscan. USA. Smart cameras, PCI- based solutions. 

http: //www. com/en- us/Products/ProductCategary. aspx? id =263 

(0 National Instruments. USA. Smart cameras, compact smart vision systems support- 
ing multiple cameras. 


http: //sine. ni. com/nips/cds/ view/ p/ lang/ en/nid/204077 
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Q7 Neuricam. Italy. Smart cameras for non- manufacturing applications. 

http: //www. neuricam. com/main/catalog. asp 

(9 Omron Electronics. Germany. Smart cameras, vision sensors. 

http: //www. omron. com/products/indu. html 

(9 PPT Vision. USA. Smart cameras. 

http: //www. pptvision. com/ 

Q0 Sony. Japan. Smart cameras and development platforms. 

http: //pro. sony. corn/bbsc/ssr/cat- industrialearneras/resource. solutions. bbsc- 
cms- assets- mkt- indauto- Solutions- srnartcameras. shtml 

QD Tattile. Italy. FPGA- based smart cameras. 

http: //www. tattileusa, com/lalpha/ 

@) Vision Components. Germany. Smart cameras, vision sensors. 

http: //www. vision- cornponents. de/ 

@ Wintriss Engineering. USA. Smart line scan cameras for web inspection. 

http: //www. weco. com/ 

网 上 资源 : 

(D Smart camera- links to smart camera manufacturers. 

http: //www. srnartcamera. it/links. htm 

(2? Machine Vision Online. An online information service provided by the Automated 
Imaging Association (AIA, Michigan, USA) . 

http: //www. machinevisiononline. org/ 

(3 Machine Vision Resources. 

http: //elm. eeng. dcu. ie/whelanp/resources/resources. html. 

(4) Axtel Machine Vision Resources. 

http: //www. axtel. com/machine- vision. html 

(5) Vision Systems Design. 

http: //www. vision- systems. com/topics/smart- cameras. html 

(6) Introduction to Machine Vision. 

http://www. machinevisian. co. uk/ 

CD Computer Vision online. 

http: //www. computervisiononline. com/ 

Imaging and Machine Vision Europe. 

http: //www. imveurope. com/ 

(9 The web portal of the UK Industrial Vision Association. 

http: //www. ukiva. org/ 

(0 The European Machine Vision Association. 
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http: //www. emva. arg/ 
(D Machine Vision Germany. 
http: //www. vdma. org/ visionfinder 


12 German Machine Vision Companies and Research Groups. 


http: //kogs- www. informatik. uni- hamburg. de/ Koethe/ german, vision. html 

(3 German Machine Vision Portal. 

http: //www. machine- vision. de/ 

最 近 的 一 些 书 : 

(D Handbook of Machine Vision. By A. Harnberg. Published by Wiley- VCH, Wein- 
heim. Edition 2006. ISBN; 978-3527405848. 

(2) Embedded Computer Vision. By B. Kisacanin, S.S. Bhattacharyya, S. Chai. 
Published by Springer- Verlag. Edition 2008. ISBN: 978-1-84800- 303-3. 

(3 Machine Vision Algorithrns and Applications. By C. Steger, M. Ulrich, 
C. Wiedemann. Published by Wiley- VCH, Weinheirn. Edition 2007. ISBN: 978-3-527- 
40734-7. 

(4) Image Proccession, Analysis, and Machine Vision. By M. Sanka, V. Hlavac, 
R. Boyle. Published by CL- Engineering. Edition 2007. ISBN; 978-0495082521. 

(5 Machine Vision; Theory, Algthrithms, Practicalities. By E. R. Davies. Published 
by Morgan Kaufmann. Edition 2004. ISBN: 978-0122060939. 

有 关机 器 视觉 和 计算 机 视觉 的 学 术 会 议 ， 人 研习 会 以 及 贸易 . 

(D The annual British Machine Vision Conference. Organised by the British Machine 
Vision Association. 

http: //www. bmva. ac. uk/ 

(2) The International Robots, Vision&Motion Control Show. Held every 2 years and 
organized by the Robotic Industries Association ( Michigan, USA), the AIA and the Mo- 
tion Control Association ( Michigan, USA) . 

http://www. robots- vision- show. info/robots vision shaw. info. html 

Q Computer Vision Conferences Listings. 

http: //iris. usc. cdu/ Infarmation/ Iris- Conferences. html ; 

http://www. wikicfp. com/cfp/servlet/tool. search? q = vision 

(4) The IAPR ( International Association for Pattern Recognition) Conference on Ma- 
chine Vision Applications (MVA) . Organized by Japanese academia and industries. 

http: //www. mva- org. jp/ 

(5) The International Conference on Machine Vision, Image Processing. and Pattern 
Analysis ( MVIPPA) . Organized by the World Academy of Science, Engineering and 
Technology ( WASET) . 
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http: //www. waset. arg/ 

(6 The European Machine Vision Business Conference. Organized by the EMVA. 

http: //www. emys. org/emva, events and, conferences 

C) The ACM/IEEE International Conference on Distributed Smart Cameras ( ICD- 
SC) . 

http: //www. icds. org/ 

Machine Vision China. 

http: //www. mvchina. org/ 

学 术 期 刊 ; 

(D The Journal of Machine Vision and Applications. Published by Springer Berlin/Hei- 
delberg. 

http: //www. springerlink. com/content/0932- 8092 

(2) The IEEE Transactions on Pattern Analysis and Machine Intelligence. Published by 
IEEE. 

http: //www. camputer. org/tpami/ 

(3) The Advanced Imaging. Published by Cygnus Business Media. 

http: //www. advancedimagingpro. com/ 


$173 — 用 于 视觉 监控 的 智能 摄像 机 


Khurram Shafique and Omar Javed 


摘要 : 自动 视觉 监控 系统 一 定 可 以 从 大 量 传感器 中 检索 和 整合 一 些 相关 信息 ， 
然后 以 一 种 用 户 方便 的 方式 把 它们 显示 出 来 。 依 赖 智能 摄像 机 ， 这 些 系统 可 以 从 内 
容 丰 富 的 视频 数据 中 提取 目标 元 信息 ， 首 先 检测 信息 ， 把 信息 分 类 成 各 个 应 用 领域 
感 兴趣 的 目标 信息 ， 然 后 随 着 时 间 不 断 跟 踪 。 因 此 ， 对 于 数据 收集 以 及 中 、 低 级 别 
的 视频 分 析 来 说 ， 智 能 摄像 机 是 一 个 理想 的 平台 。 然 而 ， 对 于 高 级 别 的 场景 理解 和 
内 容 敏感 的 推理 需要 环境 参数 的 学 习 以 及 它们 的 空间 变量 。 这 种 学 习 及 推理 是 一 切 
认 知 系统 重要 的 特性 ， 能 提高 系统 的 适应 性 及 实用 性 。 本 章 指 出 ， 根 据 过 去 的 观测 
值 建立 学 习 模 型 ， 进 一 步 利 用 这 些 模 型 ， 可 使 得 目标 的 识别 与 分 类 、 目 标的 持续 跟 
踪 、 差 异 行为 的 检测 、 传 感 器 间 的 校准 以 及 地 理 注 册 更 具 鲁 棒 性 ， 从 而 实现 了 智能 
摄像 机 对 智能 行为 的 模拟 。 


















































近年 来 ， 自 动 视觉 监控 系统 已 取得 了 很 大 的 进步 。 过 去 功能 受 限 的 单 摄像 机 系 
Ht (识别 和 跟踪 目标 )"*”*™ ， 已 经 发 展 成 为 具有 多 个 传感器 网 络 的 大 型 系统 ， 
可 以 进行 大 面积 视频 分 析 "”…”… "5 。 这 种 系统 旨 在 提供 站 点 范围 内 的 情景 感 
知 ， 通 过 以 下 3 个 方面 来 实现 : 中 从 描述 现场 的 视频 中 提取 有 用 的 元 数据 ， 对 现场 
的 描述 包括 动静 态 目标 及 其 相互 作用 与 行为 ; @ 融 合 从 多 个 传感器 提取 的 信息 ; 
@) 用 一 种 用 户 方便 的 方式 呈现 出 来 。 直 到 最 近 ， 对 于 一 些 常见 的 问题 ， 如 目标 识 
别 、 持 续 跟 踪 、 目 标 分 类 以 及 数据 融合 ， 大 多 数 系统 均 可 以 单独 处 理 ， 且 能 试图 推 
断 现 场 中 单个 目标 的 属性 ， 而 无 需 考虑 单个 目标 之 间 的 相互 作用 、 场 景 环境 及 其 先 
前 的 观测 值 。 由 于 这 些 系 统 的 无 记忆 性 ， 使 它们 没有 学 习 环 境 参 数 的 能 力 ， 进 而 不 
能 根据 这 些 参 数 得 出 智能 推理 。 

大 量 研究 给 出 了 有 力 的 心理 学 证 据 ， 场 景 的 上 下 文 对 人 们 进行 场景 理解 非常 重 
要 ， 如 长 期 遮挡 的 处 理 、 异 常 行为 的 检测 、 甚 至 目标 跟踪 检测 中 、 低 层 视觉 任务 的 
BBE 。 我 们 认为 ， 智 能 摄像 机 经 过 一 段 工 作 时 间 ， 能 根据 观测 值 来 对 场景 建 
模 ， 而 且 能 提高 基于 此 模型 的 性 能 。 得 出 一 些 推论 需要 高 级 知识 ， 这 些 知 识 来 白领 
域 知 识 、 过 去 经 验 、 时 序 一 致 性 以 及 场景 几何 形状 ， 例 如 ， 被 识别 的 路 径 、 道 路 、 
场景 出 入 口 ， 学 习 到 的 子 事件 之 间 的 因果 关系 ， 以 及 学 习 到 的 该 区 域 的 流量 和 目标 
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的 行为 模式 。 当 场景 中 存在 灌木 从 ， 有 目标 通过 这 里 时 ， 则 只 能 观测 到 一 部 分 目标 
或 观测 不 到 目标 。 现 存 的 大 多 数 系统 只 有 当 目 标 从 灌木 从 出 来 时 才能 检测 到 它 ， 而 
无 法 将 遮挡 前 后 目标 的 观测 值 联系 起 来 。 在 特定 地 方 特定 的 时 间 间 隅 ， 目 标 消 失 与 
出 现 ， 当 这 种 行为 能 被 持续 观测 到 时 ， 智 能 摄像 系统 可 以 推断 这 些 观测 值 之 间 的 联 
系 ， 然 后 ， 当 目标 再 现时 ， 根 据 这 些 观测 值 就 能 正确 识别 。 我 们 认为 这 些 过 程 及 其 
相关 参数 的 识别 、 建 模 和 分 析 对 实现 自主 式 智能 决策 很 关键 。 本 章 中 ， 我 们 将 通过 
例子 来 说 明 ， 使 用 场景 上 下 文 、 特 定 的 领域 知识 和 先 验 知识 ， 如 何 使 视觉 监控 系统 
的 适应 性 和 实用 性 成 为 可 能 ， 以 及 如 何 解决 视觉 监控 系统 的 典型 问题 ， 这 些 问题 包 
括 传感器 校正 、 地 理 注 册 、 行 为 预测 、 场 景 中 异常 模式 的 检测 、 前 景 检测 的 改善 、 
目标 分 类 和 目标 的 持续 跟踪 。 

















17.2 相关 工作 


在 各 种 应 用 中 ， 轨 迹 和 路 径 建 模 是 重要 的 一 步 ， 许 多 模型 对 监测 和 监控 系统 来 
说 非常 重要 。 这 些 模型 可 以 用 于 滤波 器 的 跟踪 算法 ， 进 而 生成 可 能 的 路 径 、 给 定 目 
标 出 现 与 消失 的 位 置 以 及 检测 异常 轨迹 。 这 种 模型 可 以 直接 反馈 到 跟踪 算法 的 初始 
阶段 ， 并 用 于 解决 短暂 的 或 长 时 间 的 遮挡 。 近 年 来 ， 已 经 提出 了 许多 用 于 交通 场景 
中 轨迹 和 路 径 建 模 的 许多 方法 和 特征 。 根 据 所 选择 的 特征 、 模 型 、 学 习 的 算法 、 应 
用 以 及 训练 数据 的 不 同 ， 这 些 方法 各 有 不 同 。 这 些 模 型 的 详细 综述 见 参 考 文献 ”| 。 

参考 文献 “提出 了 基于 神经 网 络 的 方法 ， 用 于 典型 路 径 学 习 和 轨迹 建 
模 。 基 于 神经 网 络 的 方法 ， 除 了 计算 复杂 以 及 缺乏 适应 性 外 ， 其 主要 缺点 是 无 法 对 
不 完整 轨迹 或 者 只 有 一 部 分 轨迹 的 情况 做 出 处 理 。 在 参考 文献 [175] 'P, Ferny- 
hough 等 人 把 空间 模型 作为 学 习 算 法 的 基础 (该 空间 模型 在 参考 文献 [241] 中 提 
出 ) ， 通 过 累计 的 目标 轨迹 ， 该 算法 能 自动 得 到 目标 的 路 径 。 在 参考 文献 【298 ] 
H, Koller- Meier 等 人 使 用 基于 节点 模型 来 表示 轨迹 簇 的 平均 值 。 类 似 的 技术 ，Lou 
等 人 在 参考 文献 [336] 中 提出 。 虽 然 这 两 种 方法 都 能 确定 常用 轨迹 模式 的 平均 
值 ， 但 是 如 果 忽 视 平 均值 周围 的 路 径 分 布 将 得 不 到 可 靠 的 信息 。 人 参考 文献 【218 ， 
509] 中 提出 了 轨迹 的 分 层 聚 类 ， 在 用 于 轨迹 分 类 时 ， 这 些 轨迹 表示 在 六 维 空间 量 
化 时 的 状态 序列 ， 而 且 这 个 方法 是 以 共生 矩阵 为 基础 的 ， 它 假设 所 有 轨迹 的 序列 长 
度 是 一 样 的 。 然 而 ， 这 种 假设 在 真实 的 序列 中 通常 是 错误 的 。 

在 参考 文献 [261] F, Javed 等 人 提出 了 非 参 数 的 运动 模型 ， 用 来 描述 两 个 摄 
像 机 观测 值 之 间 的 时 空 特性 关系 。 在 监督 训练 时 ， 该 模型 的 学 习 是 根据 稀 玖 观测 。 
参考 文献 [508] 提出 了 一 种 隐 马 尔 可 夫 模 型 方案 ， 其 全 部 序列 都 是 两 个 状态 ， 用 
于 确定 目标 的 出 现 与 消失 。 在 闭环 的 方式 中 ， 用 目标 出 现 与 消失 的 知识 纠正 轨迹 。 
参考 文献 [445, 553] 为 基于 HMM 的 方法 ， 它 的 轨迹 在 二 维 图 像 平 面 中 是 根据 高 
斯 分 布 的 两 个 状态 之 间 的 迁移 来 建 模 的 。 参 考 文献 [207] 为 Galata 等 人 提出 的 一 
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种 机 制 ， 这 种 机 制 可 以 自动 地 获取 任何 行为 的 随机 模型 。 与 HMM 模型 不 同 的 是 ， 
提出 的 变 长 马尔 可 夫 模 型 可 以 捕获 时 间 尺 度 可 变 的 相关 性 。 

参考 文献 [235] 中 ，Hoiem 等 人 在 成 像 和 场景 理解 方面 的 研究 向 前 跨 了 一 步 ， 
通过 对 目标 、 表 面 几何 特性 以 及 摄像 机 视点 之 间 的 相关 性 进行 建 模 来 改善 目标 识别 
的 性 能 。 参 考 文献 【454] F, Rosales 等 人 针对 目标 被 遮挡 前 、 被 遮挡 期 间 以 及 被 
遮挡 后 的 情况 ， 使 用 扩展 的 卡尔 曼 滤 波 器 来 提高 跟踪 性 能 ， 通 过 这 种 方法 来 估计 目 
标的 运动 轨迹 。 人 参考 文献 [282] 中 ，Kaucic 等 人 提出 了 模块 化 框架 ， 对 高 置信 度 
的 微小 跟踪 区 域 进行 初始 化 、 跟 踪 ， 并 把 它们 连接 起 来 ， 因 而 能 避免 摄像 机 之 间 踪 
挡 和 盲区 的 影响 ,实现 对 目标 的 跟踪 。 参 考 文献 [555] P, Wan 等 人 在 考虑 空 
间 分 布 、 速 度 和 目标 大 小 的 前 提 下 ， 提 出 了 轨迹 之 间 相 似 度 的 测量 。 然 后 把 这 些 轨 
迹 根 据 目 标的 类 型 以 及 空间 和 速度 分 布 进行 聚 类 。 参 考 文献 【418 ] 中 ，Perera 等 
人 在 连接 轨迹 段 时 ， 提 出 了 可 靠 连 接轨 迹 的 方法 。 轨 迹 的 拆 分 和 合并 避免 了 遮挡 的 
影响 ,实现 对 多 目标 的 跟踪 。 近 来 ，Hu 等 学 者 在 参考 文献 [244] 中 ， 对 于 运动 
模式 的 学 习 提出 了 一 种 算法 ， 首 先 ， 用 模糊 KK- 均 值 算法 把 前 景 像素 进行 聚 类 ， 然 
后 ， 根 据 前 一 步 的 结果 把 这 些 轨迹 进行 分 层 聚 类 。 轨 迹 聚 类 分 时 间 与 空间 两 个 层面 
进行 。 那 么 可 以 假定 轨迹 分 类 后 的 每 种 模式 是 一 复 高 斯 分 布 的 链 环 ， 用 每 个 轨迹 聚 
类 的 特征 去 估计 它们 的 参数 。 最 终 给 出 了 异常 检测 和 行为 预测 的 实验 结 

本 章 中 ， 我 们 说 明了 ， 如 何 从 传感器 观测 值 中 获得 先 验 知识 的 编码 模型 ， 例 如 
场景 过 渡 模 型 ， 目 标 出 现 模 型 ， 共 生 模型 (单个 或 多 个 传感器 ) ， 以 及 如 何 利用 它 
们 去 改善 目标 识别 、 目 标 跟 踪 、 目 标 分 类 、 传 感 器 间 校 准 / 地 理 注 册 (请 参阅 第 13 
章 ) 以 及 目标 的 行为 分 析 。 
























































17.3 用 于 目标 识别 的 智能 摄像 机 


目标 外 观 的 背景 差 已 经 被 广泛 用 作 目 标识 别 的 判 据 。 除 了 物体 的 外 观 ， 现 场 行 
为 的 历史 值 以 及 特定 领域 的 知识 也 是 改善 目标 识别 的 重要 依据 。 例 如 ， 在 任意 给 定 
的 时 间 ， 与 目标 活动 频繁 的 区 域 相 比 ， 不 出 现 目标 活动 的 区 域 更 难 识别 出 前 景 目 
标 。 同 样 地 ， 时 间 持 续 性 也 是 前 景 目标 的 内 在 属性 ， 可 以 用 来 判断 该 区 域 是 否 为 前 
景 。 目 标的 时 间 持 续 性 意味 着 ， 除 非 这 个 目标 退出 场景 或 者 被 遮挡 ， 它 应 该 待 在 原 
地 ,或 者 移动 到 所 观察 位 置 的 附近 。 假 设 智能 摄像 机 通过 学 习 能 建立 活动 场景 的 模 
型 ， 也 能 建立 观察 目标 在 场景 中 位 置 变迁 的 模型 | 如 场景 中 运动 目标 起 点 、 终 点 
以 及 迁移 时 间 的 联合 概率 密度 | ， 那 么 ， 经 过 一 段 时 间 ， 采 用 学 习 到 的 行为 模型 便 
可 以 改善 目标 识别 的 性 能 。 

严格 地 讲 ， 典 型 的 背景 差 技 术 求 得 前 景 中 任 一 像素 z 在 上 时 刻 的 似 然 值 。 令 z 
是 一 个 随机 变量 ， 当 且 仅 当 像素 v: 是 前 景 像素 ， 此 时 w= tue。 同 时 ， 令 A 为 用 于 
背景 建 模 的 外 形 特 征集 (例如 ， 基 于 外 形 模型 的 彩色 / 灰 度 ) ， 并 且 设 由 = 10, 
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Pa, e, Qo) 是 1-1 时 刻 识别 出 的 前 景 像素 集 ， 其 中 0 是 上 一 帧 前 景 像素 的 总 
数 。 然 后 根据 贝 叶 斯 规则 : 
P(u =truel A, 9) cc P(A, Dlu - true) P(u = true). (17.1) 
假设 外 形 A 和 前 景 历史 d 相互 独立 ， 我 们 可 以 写作 
P(u =truelA,®) <P(Alu 2 true) P( Plu = true) P(u = true). (17.2) 
SRY TE COR TEE OPT SEE SULLA HEE P(A | w= true) 进行 建 模 ， 没 有 
考虑 前 景 历史 概率 PC | u=ture) 以 及 先 验 概率 P(u = tue) 。 假 定 场景 迁移 模型 
是 从 场景 观测 值 中 学 习 到 的 ， 则 该 模型 可 以 获得 这 些 概率 项 ， 进 而 改善 检测 性 
fe“?! 。 图 17. 1 中 ， 根 据 是 否 利用 了 场景 迁移 模型 ， 比 较 它 们 的 识别 性 能 。 显 然 ， 
使 用 场景 迁移 模型 可 以 减少 误 报 数量 而 且 使 真实 的 轮廓 更 加 清楚 。 这 种 方案 ， 对 于 
减少 错误 和 改善 背景 差 是 一 种 简单 有 效 的 方法 ， 而 且 也 可 以 解决 一 般 的 检测 问题 ， 
如 背景 物体 运动 引起 的 误 报 警 。 
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图 17.1 前 景 模 型 : 每 一 列 所 示 为 一 个 改善 前 景 概率 估计 的 例子 。 图 a) 为 原始 图 像 ， 图 b) 为 
仅 使 用 高 斯 混合 模型 得 到 的 概率 分 布 ， 图 c) 为 使 用 学 到 的 迁移 模型 以 及 高 斯 混合 模型 得 到 的 
前 景 概率 分 布 。 图 d) 和 图 e) 所 示 分 别 为 使 用 图 b) ME c) 的 概率 分 布 获得 的 前 景 概率 分 布 。 
Alb) 和 图 ce) 所 示 为 当 图 d) ME e) 的 误 报 数量 减少 时 ， 前 景 概率 模型 得 到 改善 






























































17.4 用 于 行为 分 析 的 智能 摄像 机 


经 过 足够 长 时 间 学 到 的 场景 模型 ， 如 场景 迁移 模型 "1 和 目标 属性 模型 (如 图 
17.2)“"  ， 可 以 对 场景 中 目标 的 预期 行为 (或 正常 进行 编码 。 因 而 ， 这 些 模型 
也 可 以 用 来 识别 场景 中 的 正常 行为 和 异常 现象 ， 这 是 视觉 监控 系统 令 人 满意 的 特 
性 。 当 给 定 场 景 生成 模型 ， 异 常 检测 算法 通过 对 该 模型 采样 ， 可 以 得 到 未 来 状态 的 
预测 值 ， 而 不 使 用 跟踪 器 所 显示 的 当前 观测 值 。 然 后 把 预测 轨迹 与 目标 的 实际 测量 
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值 进行 对 比 ， 计 算 它们 之 间 的 差 值 。 例 如 , 令 目 标的 预测 状态 集 为 8 = 10,, 0, 
…，0;,1| 以 及 由 跟踪 算法 观测 到 的 实际 测量 集 为 2= lo, o, wo MWA, W 
果 d;>ds， 则 Q 代 表 的 观测 轨迹 是 异常 的 ， 其 中 
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图 17.2 在 停车 场 场景 下 的 目标 属性 模型 ( 蓝 色 代表 较 小 的 值 ， 红 色 代 表 着 较 高 值 ) 
a) 停车 场 场景 b) 场景 中 人 的 模型 c) 场景 中 车 辆 的 模型 d) 人 体 宽度 模型 e) 人 体高 度 模型 
f) 人 体 尺寸 模型 g) 人 的 行走 速度 模型 h) 人 的 运动 方向 模型 














x, y 表示 下 一 个 所 有 可 能 (候选 ) 状态 ， 其 协 方差 矩阵 是 。，n 是 以 前 状态 的 数 
量 ， 且 用 于 Mahalanobis 距离 的 计算 ， 而且 di 是 观测 轨迹 与 预测 轨迹 之 间 的 预定 义 
最 大 差 值 。 这 种 方法 完全 可 以 求 得 迁移 序列 ， 该 序列 明显 不 同 于 从 状态 迁移 分 布 中 
得 到 的 预测 序列 ， 而 且 在 运动 模式 时 ， 该 方法 很 容易 识别 异常 事件 。 使 用 该 公式 ， 
能 识别 出 在 时 空 上 与 正常 状态 不 一 致 的 情况 ， 例 如， 目标 出 现在 非 正常 区 域 或 者 目 
标 速度 变化 太 大 。n 值 的 增加 (公式 17.3) 有 助 于 识别 可 疑 行为 ， 这 种 行为 在 时 
间或 者 空间 上 不 一 定 是 异常 的 ,但 是 目标 可 能 长 时 间 存 在 于 视 场 里 ， 导 致 误差 
(实际 路 径 与 预测 路 径 之 间 的 距离 ) 一 直 积 累 最 终 超过 du, 值 。 因 此 这 种 方法 用 于 异 
稼 检测 ， 能 识别 几 种 不 同类 型 的 异常 行为 。 

图 17. 3 所 示 为 上 面 所 描述 的 异常 检测 算法 的 结果 。 图 17. 3a 的 上 面 一 行 中 ， 
一 个 人 穿 过 路 径 走 到 草坪 上 。 该 算法 把 这 个 轨迹 分 成 典型 部 分 和 非典 型 部 分 。 图 中 
所 示 的 浅 灰 色 轨 迹 是 我 们 关心 的 轨迹 ， 深 灰色 轨迹 是 根据 观测 值 而 预测 的 区 域 ， 当 
检测 到 异常 时 ， 黑 色 的 点 线 为 其 预测 轨迹 。 我 们 注意 到 只 要 是 典型 的 行为 ， 浅 灰色 
轨迹 跟 深 灰 色 轨 迹 非 常 接 近 。 在 模型 学 习 时 期 ， 自 印 挂 车 在 不 同 的 位 置 导 致 图 
17. 3a 中 间 图 像 的 轨迹 分 类 异常 。 图 17. 3a 最 下 面 一 行 所 示 为 空间 上 不 合 逻辑 的 轨 
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图 17.3 异常 检测 的 结果 : a) 为 空间 异常 b) Me) 为 时 间 异 常 ，d) 为 可 疑 
行为 ， 由 于 它 在 空间 和 时 间 上 的 跨度 较 大 。 浅 灰色 轨迹 代表 实际 (观测 到 ) 的 轨 
迹 。 深 灰色 和 黑色 轨道 分 别 对 应 于 典型 和 非典 型 (异常 ) 的 预测 路 径 

a) 空间 异常 b) 时 间 异 常 c) 时 间 异 常 d) 可 疑 行为 








图 17. 3b 上 面 一 行 图 像 显示 了 一 种 异常 行为 ， 一 个 骑 车 的 人 以 不 寻常 的 速度 穿 
过 仪 允许 漫步 的 区 域 。 图 17. 3b 中 间 一 行 图 像 给 出 了 男 一 种 情况 下 的 算法 结果 ， 图 
中 ,一 个 人 在 同样 的 区 域 跑步 ， 而 这 个 行为 没有 用 于 轨迹 训练 ， 因 为 通常 没有 人 在 
这 个 区 域内 跑步 。 图 17. 3b 下 面 一 行 所 示 为 ， 一 个 人 坐 下 来 系 鞋 带 的 停止 动作 。 图 
17. 3c 所 示 为 第 二 种 类 型 的 异常 〈 时 间 不 一 致 ) ， 有 三 个 不 同 的 例子 。 第 三 列 上 面 
和 中 间 一 行 所 示 为 ， 两 个 人 分 别 在 滑冰 与 骑 自 行车 ， 而 最 后 一 行 所 示 为 ， 一 个 人 在 
汽车 道上 行走 。 由 于 图 17. 3b Alc 中 目标 的 速度 与 训练 时 目标 的 平均 速度 有 很 大 差 
异 ， 因 而 与 从 跟踪 絮 中 得 到 实际 测量 值 相 比 ， 预 测 值 要 么 落后 要 么 提前 ， 导 臻 所 观 
察 到 的 轨迹 被 标记 为 异常 。 图 17. 3d 所 示 的 三 个 例子 为 第 三 种 类 型 的 异常 现象 。 图 
17. 3d 上 面 一 行 所 示 为 ， 一 个 人 在 环 路 上 慢 走 了 几 分 钟 。 运 动 模式 与 训练 得 到 的 分 
布 并 不 相悖 ， 但 是 场景 中 目标 长 时 间 的 存在 导致 误差 累积 ,在 公式 (17.3) 中 用 
d, 表 示 ， 其 中 采用 了 较 大 的 n 值 ， 然 后 最 终 大 到 超出 d,, ， 将 导致 序列 的 分 类 为 异 
常 。 图 17. 3d 中 间 一 行 显示 了 一 个 人 在 座位 区 域 跳跃 的 动作 。 这 个 人 即使 没有 在 现 
场 采 很 长 时 间 ， 由 于 他 的 行为 与 训练 样本 不 一 致 ， 误 差 d, 很 快 变 得 很 大 。 下 面 一 行 
所 示 为 ,一 个 人 以 锯齿 模式 行走 ， 这 种 模式 之 前 没有 发 生 过 ， 导 致 轨迹 分 类 为 


Ea 
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17.5 用 于 持续 跟踪 的 智能 摄像 机 


对 智能 摄像 机 的 监控 系统 来 说 ， 关 键 是 要 求 它 能 在 长 时 间 遮 挡 和 短暂 遮挡 的 情 
况 下 跟踪 目标 。 传 统 上 ， 参 数 运动 模型 ， 如 匀速 或 匀 加 速度 ， 与 外 观 模 型 结合 起 来 
消除 目标 与 模型 之 间 对 应 关系 的 歧义 。 然 而 ， 随 着 遮挡 时 间 的 增加 ， 外 观 模型 和 运 
动 模 型 均 容 易 发 生 明 显 的 漂移 。 另 外 ， 当 目标 可 选择 任意 路 径 时 或 当 目 标 和 运动 路 径 
在 遮挡 期 间 受 物理 条 件 影响 而 发 生 改 变 时 ， 参 数 运动 模型 通常 不 起 作用 ， 这 些 物理 
条 件 包括 物理 路 径 、 门 、 交 通 灯 。 然 而 ， 当 运动 目标 通过 一 个 给 定 的 场景 区 域 时 ， 
我 们 给 予 足 够 的 观察 ， 那 么 这 些 交 通 模 式 和 行为 可 以 通过 状态 迁移 模型 p(X,，Y， 
7) "S| 学 习 到 ， 该 状态 迁移 模型 对 目标 的 初始 状态 、 最 终 状 态 (H X A YK 
ZR) 和 迁移 时 间 7 的 联合 概率 进行 编码 。 这 种 交通 模式 的 模型 能 避免 传统 方法 的 
不 足 ， 而 且 遮 挡 时 间 不 长 时 ,也 非常 有 效 ， 如 人 对 人 的 遮挡 ， 大 型 物体 ， 如 车 辆 ， 
挡住 了 移动 的 小 物体 。 

持续 跟踪 器 试图 找到 接连 出 现 的 多 个 物体 及 其 轨迹 之 间 的 对 应 关系 。 当 目标 的 
颜色 分 布 与 形状 分 布 很 相似 或 者 目标 与 日 标 之 间距 离 很 接近 时 ， 这 个 任务 很 难 完 
成 。 然 而 ， 假 如 给 定 训练 后 得 到 的 状态 迁移 模型 p(X，Y，7r) ， 分 层 使 用 迁移 密度 
能 对 最 可 能 路 径 给 予 较 大 的 权重 。 假 设 在 时 刻 i, m 个 物体 的 观测 值 为 Q= low, 
w, e, o), ERRIME s 个 目标 的 预测 状态 为 @ = 16, 6, Eo IT 
定 能 找到 从 集合 OF, (1<k<m) 到 集合 O'(1<1<s) 的 映射 函数 。 为 了 确定 这 个 
映射 函数 ,我 们 采用 参考 文献 [484] 中 提出 的 基于 图 论 的 算法 ， 在 该 算法 中 ， 取 每 
—£H (1, k), XIV 入 的 映射 ,边缘 权重 由 估计 位 置 % 和 观察 位 置 w; 之 间 的 
Mahalanobis 距离 给 出 。 

在 没有 观测 值 时 ， 该 算法 根据 概率 分 布 中 的 样本 值得 到 完整 的 轨迹 。 图 17.4 
的 两 个 例子 中 ， 由 于 完全 遮挡 导致 轨迹 存在 相当 大 的 缺失 部 分 ， 通过 使 用 运动 模型 
的 参数 跟踪 算法 得 出 轨迹 ， 标 出 其 中 的 错误 轨迹 。 图 17.4 上 面 一 行 ， 跟踪 器 假设 
两 个 日 标 走向 高 尔 夫 车 ,然后 返回 到 原来 的 位 置 ， 这 个 假设 是 错误 的 。 通 过 学 习 后 
的 模型 来 预测 得 到 目标 的 位 置 ， 把 它们 连接 起 来 形成 正确 的 轨迹 。 图 17.4b flc 上 
面 一 行 所 示 为 根据 这 些 样本 加 权 平 均 得 到 的 轨迹 结果 ， 两 个 轨迹 分 别 清楚 地 显示 出 
来 。 深 灰色 和 浅 灰色 表示 两 个 不 同 的 轨迹 ， 而 黑色 表明 了 轨迹 被 缝合 连接 的 地 方 。 
图 17.4 的 下 面 一 行 ， 说 明了 一 个 相似 的 例子 ， 这 个 例子 是 卡车 遮挡 了 摄像 机 的 视 
线 。 这 里 卡车 阻挡 了 摄像 机 的 视 场 ， 完 全 使 目标 又 被 遮挡 ， 再 次 使 用 学 习 模型 成 功 
地 解决 了 遮挡 问题 。 
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图 17.4 每 一 列 ，a) 用 浅 灰 与 深 灰 表示 观测 到 的 轨迹 ， 该 轨迹 错误 处 已 被 标记 。 


Alb) 与 图 ce) 用 黑色 表示 轨迹 被 纠正 的 部 分 ， 用 浅 灰 和 深 灰 表示 实际 的 轨迹 


17.6 用 于 目标 分 类 的 智能 摄像 机 


在 监控 活动 及 判断 风险 的 现场 ， 需 要 监控 摄像 机 对 运动 目标 进行 分 类 。 在 城市 
中 ， 监 控 系 统 的 任务 是 对 识别 目标 进行 分 类 ， 如 ,一 个 人 , A, 车辆， 动物 ， 
自行 车 等 。 在 海上 时 ， 分 类 任务 需要 分 类 船舶 ， 如 小 型 休闲 船 自 ( 如， 帆船 、 小 
At. Dui), TAIL A Can, 货船、 油轮 、 驭 船 、 拖 船 、 游 轮 ) 以 及 海军 舰艇 
(如 ， 快艇、 海岸 巡逻 舰 )。 本 节 中 ， 我们 说 明了 特定 领域 的 先 验 知识 以 及 其 他 的 
言 息 来 源 ， 可 以 用 来 改善 海上 监控 系统 的 分 类 性 能 (图 17.5) OBR Y OPW, AIA 
分 类 信息 的 其 他 来 源 是 自动 识别 系统 (AS) 提供 的 。 总 吨位 在 300 或 300 以 上 的 
船舶 需要 提供 其 AIS 信息 。 通 过 AIS 接收 需 很 容易 得 到 AIS 信息 ， 用 来 了 解 该 区 域 
在 近期 和 长 期 内 运动 船舶 的 数量 和 类 型 的 动态 。 图 17. 6 所 示 为 ，AIS 信息 收集 到 
佛罗里达 州 一 个 港口 超过 6 个 月 以 来 每 种 船舶 出 现 的 数量 。 很 显然 ， 货 船 是 该 港口 
最 常见 的 访客 ， 而 乘客 游轮 没有 到 访 。AfIS 信息 中 ， 船 舶 出 现 的 先 验 知识 以 及 测定 
特性 是 重要 的 线索 ， 可 以 提高 对 船舶 进行 视觉 分 类 的 准确 度 。 




















”美国 海军 研究 局 (ONR) SBIR 投资 的 船舶 分 类 研究 ， 合 同 号 为 NO0014-08-C-0110， 结 果 在 此 呈现 出 
来 。 船 舶 图 片 来 源 包 括 船 舶 在 线 数 据 库 以 及 由 ONR 提供 的 船舶 图 像 数 据 库 。 
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图 17.5 ”商用 船舶 分 类 的 例子 


船舶 类 型 与 船 出 现 次 数 
的 和 渔船 
me PADE D 


货船 5% 









从 事 拖带 船 ULLLLLLLLN UN 


31% eleele 


海洋 工程 研究 船 
2% 





近海 供应 船 
3% 


2% 





a 
2% 
图 17.6 佛罗里达 州 一 个 港口 的 AIS 数据 。 船 舶 出 现 次 数 与 船舶 类 别 
的 对 应 关系 。 货 运 船舶 和 拖带 船舶 是 港口 最 常见 的 船舶 。 为 了 提高 
分 类 性 能 ， 把 这 些 信息 应 用 到 基于 图 像 的 船舶 分 类 器 中 








为 了 给 船舶 的 外 观 建 模 ， 我 们 采用 一 组 新 的 启发 式 生 物 特征 ， 称 为 “C2 特 
fie") ， 比 起 常用 的 基于 哈 尔 特征 或 基于 直方 图 特征 ， 它 能 很 好 地 平衡 复杂 性 与 
识别 能 力 。 这 个 集合 中 的 每 个 元 素 代表 一 个 特征 ， 通 过 把 局 部 边缘 检测 器 的 结果 和 
边缘 的 多 方向 结合 在 一 起 获得 了 该 特征 ， 这 里 的 局 部 边缘 检测 器 具有 近邻 抗 微小 尺 
度 和 位 置 变 化 的 能 力 ， 也 就 是 说 ,仿真 了 初级 视觉 皮层 复杂 的 细胞 结构 。 提 取 C2 
特征 先 要 进行 特征 集 上 的 计算 ， 而 其 中 的 特征 是 从 真实 的 训练 集中 学 习 得 到 的 。 然 
后 ， 从 输入 图 像 得 到 的 特征 向 量 学 习 得 到 改进 的 多 值 分 类 器 "”] 。 除 了 C2 特征 ， 
我 们 也 赞成 从 AIS 数据 中 提取 船舶 的 三 维 测量 数据 (EE, SERE, 长度) ， 把 它们 
作为 用 于 分 类 的 特征 。 改 进 的 多 值 分 类 器 只 使 用 C2 特征 ， 其 分 类 结果 显示 在 图 
17.7。 前 六 类 属于 大 船 ， 而 剩 下 的 七 类 属于 小 船 。 注 意 到 这 种 分 类 仅仅 是 基于 外 观 
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AR (C2 特征 ) ， 而 在 分 析 中 没有 使 用 基于 AIS 的 先 验 信息 。 对 于 大 船 (KEE 
量 40 + ftt 的 船只 ) 和 娱乐 小 船 的 分 类 分 析 表 明 没 有 使 用 三 维 测量 信息 。 




































































种 类 真实 训练 例子 的 数量 准确 度 召回 率 
游轮 200 62. 75 66. 67 
货船 200 70. 00 81. 16 
驳船 60 51. 43 85.71 
气垫 船 60 70. 59 50. 00 
海岸 警卫 队 快 艇 100 62. 50 52. 94 
油轮 60 42. 19 45.45 
快艇 80 47. 62 76. 92 
游艇 60 27.21 45. 45 
BAH 60 11.54 7.69 
帆船 80 19. 35 12. 50 
FA 60 21.05 26.67 
拖 船 60 70. 83 73.91 
水 上 摩托 艇 60 38. 89 33. 33 























图 17.7 游艇 和 商用 船舶 使 用 改进 的 多 值 分 类 器 的 分 类 结果 。 分 类 时 只 用 了 外 观 特征 


货船 很 容易 从 其 余 的 船只 中 辨认 出 来 。 

(2) 游轮 有 时 被 误 认为 是 货船 或 驳船 。 

O 驭 船 往往 被 误 认 为 是 货船 ， 海 岸 警卫 队 快 艇 ， 油 船 或 游轮 。 

O 气垫 船 多 半 误 认为 是 游船 ， 货 船 或 海岸 警卫 队 快 艇 。 

© 海岸 警卫 队 快 艇 经 常 被 误 认 为 是 游轮 或 货船 。 

© 油轮 不 易 从 其 他 船舶 中 分 辨 出 来 。 

CO 拖 船 很 容易 从 其 他 的 船舶 中 分 辨 出 来 。 

© 快艇 有 时 被 误 认为 游艇 或 独 木 舟 。 

(9) 游艇 多 半 被 误 认为 是 快艇 或 浮 舟 。 

O 水 上 摩托 艇 多 半 被 误 认 为 是 浮 舟 或 独 木 舟 。 

(D 帆船 ， 浮 舟 和 独 木 舟 无 法 从 其 他 的 船舶 中 区 别 出 来 。 

利用 从 AIS 信息 得 到 的 有 关 三 维 测量 的 先 验 知识 可 以 进行 进一步 的 实验 。 利 用 
先 验 信息 的 改进 的 多 值 分 类 需 的 分 类 结果 显示 在 图 17.8。 从 中 可 以 得 出 ， 比 起 仅 
使 用 基于 图 像 特 征 的 分 类 器 ， 领 域内 先 验 知识 显著 地 提高 了 分 类 性 能 。 
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x MN mE 外 观 测量 外 观 + 测 量 
MO | WARE | Ceu | ame | 准确 度 | me | 准确 度 | 召回 率 
游轮 320 77 61. 63 74. 65 57. 58 74. 03 87. 80 97. 30 
货船 300 97 61. 24 83. 16 85. 42 84. 54 96. 94 97. 94 
驶 船 90 26 42. 11 53. 33 53. 33 61.54 92. 31 100. 00 
气垫 船 66 30 42. 86 18.75 72. 22 44. 83 93. 10 93. 10 
海岸 警卫 队 快 船 125 33 25. 00 47. 62 44. 44 55. 17 74. 19 79.31 
油轮 72 27 71. 43 50. 00 40. 00 07. 69 88. 89 61. 54 
帆船 130 38 43. 48 60. 61 24. 44 28.95 55.32 76. 47 
快艇 105 33 43. 24 72.73 31.58 36. 36 54. 29 63.33 
拖 船 130 39 55. 77 78. 38 65.71 58.97 76. 19 86. 49 
游艇 80 27 25. 00 25. 00 23. 08 22.22 80. 00 48. 00 
水 上 摩托 艇 67 27 46. 15 24. 00 40. 00 22. 22 64. 00 64.00 
HA 67 20 40. 91 56.25 31.58 30. 00 70. 00 73. 68 
TURAE 90 26 22. 73 21.74 18. 75 23. 08 51. 85 56. 00 
总 和 1642 500 44. 73 51. 24 45. 24 42. 27 75. 76 76. 70 



































图 17.8 使 用 改进 的 多 值 分 类 器 对 游艇 和 商用 船舶 的 分 类 结果 。 仅 使 用 测量 方法 ， 总 体 准 确 度 
略 有 提高 ， 但 相 比 仅 使 用 外 观 特征 ， 其 整体 召回 率 下 降 。 利 用 基于 外 观 和 测量 的 先 验 知识 ， 对 
于 所 有 的 船舶 来 说 ， 分 类 准确 度 和 召回 率 显 著 地 改善 
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17.7 智能 摄像 机 网 络 的 自 校准 


对 于 广阔 领域 的 监督 和 监测 需要 摄像 机 网 络 。 这 些 摄 像 机 可 能 来 自 异 构 数 据 
源 ， 如 云 台 变焦 (PTZ) 摄像 机 ， 静 态 监 控 摄 像 机 以 及 雷达 。 此 外 ， 传 感 器 根据 输 
出 特性 的 不 同 而 不 同 , 例如， 视觉 、 红 外 (IR), 、 高 光谱 。 用 这 种 多 模 态 数据 的 分 
析 实 现 完整 的 情景 意识 和 全 局 场景 理解 需要 传感器 的 校准 ， 它 提供 了 摄像 机 在 空间 
的 排列 信息 和 这 些 异 构 传 感 带 的 输出 之 间 的 相互 作用 。 摄 像 机 网 络 的 校准 (也 可 
以 参阅 第 9 章 ) 很 重要 ， 因 为 它 使 关键 的 操作 任务 成 为 可 能 ， 如 地 理 注 册 、 数 据 
融合 以 及 目标 在 传感器 之 间 的 切换 。 它 还 能 提供 一 些 度量 信息 ， 如 检测 对 象 在 高 级 
推理 时 的 位 置 、 大 小 、 速 度 和 前 进 方向 。 因 此 ， 最 好 有 个 自动 有 效 机 制 ， 它 能 估算 
给 定 摄像 机 网 络 的 拓扑 结构 ， 随 着 时 间 的 推移 检测 拓扑 结构 的 变化 ， 并 相应 适应 这 
些 变化 。 

对 多 摄像 机 的 跟踪 “5 有 大 量 工作 要 做 ， 用 来 解决 利用 学 到 的 交通 模型 去 
估计 摄像 机 网 络 的 拓扑 结构 的 问题 。 基 于 它们 是 否 需要 训练 数据 或 用 户 监督 ， 可 以 
AY AU Miti pg 29128 287/59: sg jc gg fgg 9089997257 753. yx I, dil] EA FOU ARE D 
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明智 能 摄像 机 如 何 利 用 从 观察 值 学 习 到 的 场景 模式 来 自动 确定 和 维护 它们 的 网 络 拓 
扑 结构 。 

假设 目标 在 场景 中 移动 的 区 域 是 平面 的 (对 于 大 多 数 监 测 方案 ,这 个 假设 是 
合理 的 ) ， 目 标 在 两 个 不 同 传 感 带 的 观测 值 z 和 4 之 间 的 关系 可 以 用 一 个 单 应 性 矩 
ERR (给 出 一 个 3 x3 FARE A), ， 即 ,p = Hy。 给 定 一 对 传感器 ， 它 们 从 一 个 目标 
同时 获得 的 观测 值 服 从 两 个 互补 的 假设 ， 即 观测 值 或 者 来 自 于 现实 中 的 同一 目标 或 
者 是 随机 的 数据 队列 。 在 两 个 传感器 的 相同 观测 位 置 (或 附近 观测 位 置 ) 所 获得 
的 多 次 观测 值 满 足 第 一 个 假设 (注意 它们 也 可 能 是 频繁 出 现 的 随机 数据 队列 )， 男 
一 方面 ， 如 果 一 个 传感器 (在 特定 的 位 置 ) 进一步 的 观测 值 与 男 一 个 传感器 (在 
对 应 的 位 置 ) 的 观测 值 不 一 致 ， 就 印证 了 第 二 个 假设 。 因 此 ， 如 果 通 过 学 习 得 到 
一 对 传 感 占 的 目标 观测 值 的 联合 密度 函数 ， 那 么 该 密度 函数 的 模式 就 能 表示 了 这 对 
传感器 视 场 内 成 对 成 对 的 观测 点 ， 而 这 两 个 传 感 咒 最 可 能 观测 到 的 是 场景 中 的 同一 
DO! 。 通 过 平均 移 位 方法 可 检测 出 以 密度 函数 表示 的 这 些 模 式 ， 基 于 两 个 观测 
值 的 相关 性 测度 来 对 这 些 模式 进行 加 权 (BILAN, Pearson 相关 系数 ) ， 从 而 解决 所 观 
测 的 高 概率 同 现 随机 数据 队列 的 问题 。 图 17. 9 所 示 为 两 个 传 感 右 所 捕获 的 图 像 及 
其 相应 的 边缘 概率 密度 (为 了 便于 显示 ， 取 密度 函数 的 负 对 数值 ) 。 可 以 看 出 ， 此 
概率 密度 很 好 地 捕获 到 场景 的 公共 区 域 。 图 17. 10a 和 了 所 示 为 图 17. 9 的 最 高 加 权 
模式 和 最 低 加 权 横 式 。 显 然 最 高 加 权 模 式 处 理 后 的 图 像 与 原 图 像 具有 较 好 的 一 至 
性 ， 而 在 最 低 加 权 模 式 情况 下 不 一 致 。 一 旦 识别 出 最 可 能 的 对 应 图 像 ， 用 基于 
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图 17.9 上 面 一 行 : 来 自 两 个 摄像 机 的 图 像 ， 它 们 的 视 场 存在 交 革 ;下面 一 行 : 
四 维 共 现 概 率 密度 函数 关于 x、y 坐标 方向 的 二 维 边缘 概率 密度 
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RANSAC 的 方法 可 以 估计 出 两 个 传感器 之 间 的 单 应 性 矩阵。 图 17. 10e 所 示 为 图 
17.9 便 用 所 信 计 的 单 应 性 洽 阵 获得 的 匹配 国 像 。 注 意 到 该 算法 没有 对 传感器 的 类 
型 和 形式 施加 任何 约束 ， 能 以 类 似 的 方式 应 用 于 有 附加 信 源 ， 例 如 ，GPS/AIS 数据 
接收 器 ， 由 GPS/AIS M Macau i Cere ELE 




















图 17. 10 Ala), b) 为 最 高 加 权 (+) 与 最 低 加 权 (x) 模式 能 用 相同 灰 度 


等 级 的 对 应 点 来 表示 ， 图 c) 所 估计 视 域 的 配 准 





17. 8 


oy 
ole 


总 之 ， 为 了 改善 中 、 低 级 别 视觉 任务 的 性 能 ， 我 们 有 效 地 利用 了 过 去 的 观测 值 
和 特定 领域 的 先 验 知识 。 特 别 地 ， 我 们 给 出 了 场景 中 目标 过 渡 以 及 多 传感器 观测 值 
同 现 的 非 参 模型 ， 并 应 用 于 智能 视觉 监控 系统 。 本 章 给 出 了 各 种 应 用 实例 ， 如 目标 
识别 和 分 类 ， 连 续 跟 踪 ， 异 常 行为 检测 ， 传 感 顺 间 的 校准 ， 以 及 地 理 注 册 ， 并 基于 
真实 数据 ， 通 过 实验 及 结果 对 所 提出 的 算法 进行 了 验证 。 


第 18 童车 载 摄像 机 系统 


Massimo Bertazzi, Luea Bambini, Alberta Broggi, 
Paolo Grisleri, and Pier Paolo Porta 


摘要 : 本 章 提 出 了 一 些 重要 问题 ， 这 些 问 题 的 提出 不 仅 需要 考虑 汽车 环境 的 一 
切 具 体 特点 ， 而 且 要 满足 各 种 应 用 要 求 ， 它 们 涉及 对 车 载 摄像 机 系统 的 挑选 、 安 装 
以 及 校准 。 


18.1 简介 





车 载 摄像 机 的 视觉 感知 是 人 工 视 觉 和 智能 摄像 机 在 应 用 方面 遇 到 的 最 大 挑战 。 
对 先进 驾驶 辅助 系统 (ADAS) 来 说 ， 具 备 感知 和 理解 周围 环境 的 能 力 至 关 重 要 ， 
它们 可 以 作为 报警 系统 来 警告 驾驶 者 或 自动 系统 ， 然 后 直接 去 控制 汽车 的 运动 。 

能 进行 环境 感知 ， 要 归功 于 大 量 各 种 各 样 的 传感器 及 其 技术 (包括 摄像 机 ， 
激光 ， 和 雷达， 声呐 ) ， 与 其 他 的 传 感 顺 相 比 ， 通 过 处 理 摄像 机 获取 的 图 像 能 获得 更 
清晰 的 图 像 和 非常 丰富 的 信息 。 

把 摄像 机 集成 到 汽车 上 ， 这 个 课题 的 提出 已 经 有 一 段 时 间 了 ; 20 世纪 80 年 代 
后 期 出 现 了 第 一 个 装载 摄像 机 的 汽车 原型 。 对 图 像 进行 实时 分 析 时 ， 处 理 器 性 能 达 
不 到 是 当时 主要 的 限制 因素 。 确 实 存 在 其 他 的 一 些 问题 ， 计 算 资 源 的 限制 使 得 研究 
人 员 的 注意 力 转 移 到 处 理 器 的 体系 结构 ， 而 不 是 传感器 本 身 。 另 一 方面 ， 在 过 去 的 
几 年 里 ， 处 理 顺 的 性 能 已 经 足够 强大 以 及 出 现 低 成 本 的 处 理 引 擎 ， 绥 解 了 计算 能 
的 限制 ， 而 且 把 相当 大 的 努力 投入 到 设计 适合 于 车 辆 的 智能 摄像 机 上 。 
越 来 越 多 安装 在 汽车 上 的 摄像 机 ， 能 够 对 不 同 研究 项 目 进行 环境 感知 ; 然而 ， 
在 工业 上 ， 汽 车 制造 商 最 先 开始 的 是 对 其 他 技术 的 集成 ， 如 雷达 和 声呐 。 当 前 ， 系 
列车 载 摄像 机 的 使 用 仍 局 限于 一 些 基 本 的 应 用 ， 如 停车 监控 或 者 夜 视 增 强 ， 在 这 些 
方面 并 没有 做 出 进一步 的 图 像 处 理工 作 : 没 能 完成 自动 识别 ， 而 只 是 显示 图 像 。 

正如 前 面 提 到 的 ， 图 像 处 理 确实 很 复杂 ， 需 要 考虑 更 多 问题 ， 但 与 此 相反 ， 一 
些 研 究 项 目 正 在 积极 寻求 它 所 带 来 的 利益 。 

如 检测 行驶 车 道 或 检测 路 上 障碍 物 、 识 别 交 通 标志 以 及 定位 路 人 ， 这 些 功能 需 
要 把 摄像 机 安装 在 汽车 的 正 前 方 ， 但 是 每 个 功能 对 摄像 机 的 方向 ， 视 场 以 及 灵敏 度 
分 别 有 着 特定 的 要 求 ， 需 要 统筹 考虑 ， 而 且 它们 也 是 摄像 机 的 选择 以 及 设计 过 程 需 
要 考虑 的 因素 。 其 他 的 应 用 ， 比 如 停车 辅助 ， 育 区 监视 ,交叉 路 口 的 管理 ， 需 要 摄 
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像 机 能 定向 不 同 的 方向 ， 而 且 对 前 面 提 到 那些 参数 还 需要 具体 考虑 。 

传感器 对 和 车辆 外 观 的 影响 以 及 在 车 辆 上 的 集成 是 主要 的 约束 因素 ， 然 而 人 们 通 
常 忽视 它 。 传 感 咒 的 位 置 必须 根据 它 的 功能 及 其 样式 来 定位 : 除了 执行 一 些 必 要 功 
能 外 ， 传 感 器 的 集成 不 能 具有 破坏 性 ， 一 定 不 能 挡住 苞 驶 者 的 视线 而 且 不 能 改变 车 
辆 的 美观 ， 且 必须 提供 足够 的 现场 信息 从 而 使 得 传感器 感知 现场 的 真实 值 。 

本 章 概 括 了 所 有 的 技术 问题 ， 当 应 用 涉及 把 摄像 机 安装 在 移动 的 车 辆 上 时 ， 一 
定 要 考虑 安装 时 的 一 些 约束 和 校准 问题 。 具 体 到 汽车 环境 的 一 些 其 他 问题 ， 如 汽车 
的 动态 ， 系 统 的 温度 ， 环 境 照度 和 摄像 机 的 震动 等 ， 也 做 出 讨论 ， 而 且 强调 了 一 些 
可 能 的 解决 方案 。 


18.2 技术 








本 节 概 述 了 使 用 于 汽车 应 用 中 的 一 些 主 要 技术 ， 这 些 技 术 用 来 获取 道路 图 像 以 
及 给 处 理 阶 段 反馈 相关 信息 。 在 设计 视觉 系统 时 ， 首 移 要 考虑 如 何 选择 摄像 机 ， 通 
常 为 了 使 理论 设计 能 与 市 场 现 有 的 产品 型 号 匹配 需要 对 参数 稍 作 改变 。 理 论 上 很 难 
评估 这 个 选择 对 最 终 系 统 性 能 的 影响 如 何 。 其 他 重要 的 制约 因素 有 机 械 结构 约束 和 
价格 ， 在 选择 开发 面向 大 众 市 场 应 用 的 摄像 机 时 ， 这 些 制约 因素 需要 认真 考虑 。 
表 18. 1 概述 了 具有 典型 摄像 机 功能 的 常见 先进 驾驶 辅助 系统 。 


表 18.1 通常 摄像 机 在 汽车 应 用 中 的 各 类 特性 指标 



























































障碍 物 交通 标志 车 头 灯 的 
应 行人 的 检测 | 车 道 的 检 澳 停车 辅助 | 盲区 监视 
jy 用 行人 的 检测 | 车 道 的 检测 的 检测 的 识别 停车 辅助 X 自动 控制 
传感器 / 可 见 光 摄 | 可 见 光 摄 。 可 见 光 摄 | 可 见 光 摄 | 可 见 光 摄 NR # 
摄像 机 (全 | MERE | 像 ”机 /NIR| 像 机 /NIR| 像 机 /NIR | 像 机 /NIR| 像 ”机 /NIR a a 
帧 快门 ) 摄像 机 摄像 机 摄像 机 摄像 机 摄像 机 
像素 分 — VGA 或 VGA 或 VGA 或 VGA m VGA 或 | VGA 或 
x 
HER 更 高 更 高 更 高 更 高 更 高 更 高 
动态 范围 | BERA | 最 高 最 高 最 高 最 高 最 高 最 高 
ant fi] 4 少 
S 分 | 至 少 10Hz| 至 少 Il0Hz| 至 少 10Hz| 至 少 10Hz 至 少 10Hz| ED 至 
DE 10Hz 
: 微 测 辐射 CCD/ CCD/ 
技术 、 CCD CCD CMOS CMOS 
热 计 CMOS CMOS 
无 论 白天 
还 是 夜晚 ,| oO 、 
优点 言 噪 比 高 成 本 低 成 本 低 成 本 低 成 本 低 无 模糊 
Ba Lae | PAUR 
纹理 
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18.2.1 NIR 传感器 以 及 FIR 传感器 


适合 ADAS 汽车 摄像 机 的 设计 ， 使 处 理 系 统 更 容易 地 识别 任务 且 更 具有 重 棒 
性 。 它 包括 特殊 传 感 吉 的 使 用 ， 这 种 传感器 能 够 获取 人 有 眼 感知 波长 范围 以 外 的 辐射 
光 。 在 汽车 应 用 中 ， 有 两 个 主要 频率 范围 : 近 红 外 线 光 (NIR) 与 远 红外 线 光 
(FIR) 。 

NIR 是 缩写 ， 用 来 表示 波长 在 700 -3000nm 的 电磁 波 。 人 眼 不 能 感知 这 种 辐射 
光 ， 但 是 这 种 辐射 光 尤 其 在 夜间 包含 着 重要 的 信息 。 而 且 ， 当 现场 的 照明 是 由 远 光 
灯 辐 射 的 NIR 范围 内 的 光 时 ， 在 其 他 车 上 的 人 不 能 感知 这 种 照明 系统 的 光 2 ， 然 而 
视觉 系统 能 在 这 种 完全 照明 场景 下 执行 检测 。 近 红外 线 的 光 很 有 价值 ， 因 为 物体 在 
这 个 范围 内 有 不 同 的 反射 率 。 在 可 见 光 域 照 明 条 件 不 好 的 现场 ， 包 含 的 丰富 信息 ， 
在 NIR 域 时 ， 这 些 信息 仍 是 可 得 到 的 。 因 此 ， 对 获得 这 些 图 像 以 及 对 图 像 执 行 检 
测 时 ， 使 用 近 红 外 线 通常 比 使 用 可 见 光 图 像 的 效果 更 好 。 

由 于 硅 的 物理 特性 ， 大 多 数 商 业 / 工 业 装置 能 吸收 NIR 辐射 光 ， 所 以 需要 把 滤 
光 玻 璃 搬 在 镜头 与 传感器 之 间 ， 滤 除 这 个 范围 内 辐射 能 量 ， 从 而 使 获得 的 图 像 颜色 
更 逼真 。 

特殊 的 制造 工艺 可 以 改善 其 在 NIR 域内 的 灵敏 度 。 这 种 情况 下 ， 过 滤 掉 由 可 
见 光 得 到 的 图 像 ， 就 能 获得 完全 由 NIR 得 到 的 图 像 。 由 于 可 见 光 的 截止 滤波 器 ， 
使 得 到 达 传 感 器 的 光 通 量 就 会 大 大 减少 ， 因 此 为 了 获得 合适 的 曝光 ， 应 该 使 用 较 长 
的 百叶 窗 和 /或 者 较 高 的 增益 。 在 NIR 区 域 拍摄 的 图 像 适 合 于 对 车 道 的 检测 和 行人 
的 检测 。 并 不 是 所 有 的 材料 都 有 良好 的 反射 率 。 一 些 PVC (RAL) 的 衣服 吸 
收 这 种 光 ， 这 使 得 识别 任务 更 加 艰巨 。 当 使 用 这 种 图 像 作 行人 检测 时 ， 它 是 很 大 的 
一 个 限制 因素 。 

远 红外 通常 是 波长 在 3 到 25 ~ 401m 之 间 的 电磁 波 的 频谱 。 通 过 测量 物体 的 温 


















































名” 当 汽 车 与 人 眼 的 距离 很 近 (0 ~ 10m) 时 ， 这 种 解决 方案 可 能 会 不 安全 。 
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度 来 测量 物体 发 出 远 红外 辐射 的 强度 。 有 时 把 波段 范围 从 3 ~ Sem 称 为 是 MWIR 
(中 波 红 外 ) ， 而 把 波段 从 5 ~ 14pm 的 命名 为 LMIR (长 波 红 外 ) 。 

传感器 能 够 生成 取景 器 内 的 热 图 像 ， 可 作为 夜 视 驾 驶 辅助 产品 的 组 件 22; 。 热 
图 像 中 每 个 像素 值 与 物体 表面 的 温度 有 关 ， 在 典型 传输 函数 的 作用 下 ， 通 过 透镜 组 
把 像素 的 投影 覆盖 在 物体 表面 上 。 

关于 FIR 在 汽车 行业 有 趣 的 一 点 是 ， 它 与 这 些 波长 在 高 空中 的 透射 率 有 关 。 图 
18. 1 描述 了 空气 透射 率 随 辐射 波长 的 变化 。 这 个 函数 看 上 去 像 高 衰减 与 高 透射 序 
列 的 范围 。 这 个 范围 称 为 “大 气 窗口 "。 长 波 范围 的 透射 率 是 高 的 ， 因 此 ， 辐 射 在 
很 长 一 段 距离 没有 衰减 。 另 一 方面 ， 在 MWR 范围 内 发 生 明 显 的 衰减 ， 使 距离 几 
十 米 的 高 空 对 这 种 辐射 的 透射 率 大 大 降低 。 
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图 18.1 在 远 红 外 范围 内 ， 空 气 透 射 率 存在 一 个 大 气 窗 口 


FIR 图 像 用 于 汽车 系统 中 ， 去 检测 行人 和 动物 ， 这 是 由 于 人 与 动物 的 身体 对 于 
同一 的 背景 有 不 同 温度 (如 图 18. 2a) 。 然 而 ， 这 种 方法 存在 局 限 ， 由 于 冬天 穿 的 
衣服 颜色 深 一 掩盖 了 人 自身 的 辐射 率 ， 而 夏天 的 热 背景 一 夏天 的 背景 或 许 物体 更 
热 ， 如 图 18. 2b 所 示 。 












































a) 


图 18.2 a) 在 冬天 的 场景 中 ，FIR 图 像 能 很 容易 检测 到 人 和 车 辆 。 
b) 在 夏天 的 场景 中 ， 左 边 那个 人 的 温度 比 背景 中 门 的 温度 要 低 
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尽管 这 种 系统 仅仅 在 中 、 低 温 时 ， 才 对 于 人 的 检测 确实 有 效 ， 但 是 考虑 到 传 感 
器 的 成 本 ， 它 们 并 没有 广泛 应 用 。 


18.2.2 颜色 传感器 


颜色 信息 对 于 检测 车 辆 ， 车道， 道路 标记 ， 人 行 横 道 ， 交 通信 号 灯 以 及 交通 标 
志 ， 这 些 结构 化 元 素 非 常 重要 。 使 用 单一 成 像 仪 获得 颜色 的 一 种 廉价 方法 ， 就 是 在 
每 一 个 像素 上 安装 一 个 滤 色 器 。 这 种 方法 使 每 个 像素 暴露 于 特定 的 波长 范围 内 ， 像 
素 的 特定 波长 范围 取决 于 其 滤 色 器 。 

最 常见 的 解决 方法 是 使 用 Bayer 模板 。Bayer 模板 指 的 是 一 个 2 x2 像素 单元 ， 
R, GAB 波长 的 四 种 可 能 组 合 能 被 同样 使 用 。 一 般 情况 下 ， 两 个 像素 专用 于 接收 
绿色 辐射 ， 因为 人 眼 对 这 种 颜色 更 敏感 ， 其 他 两 个 是 用 来 接收 红色 和 蓝 色 分 量 。 

彩色 图 像 可 以 使 用 不 同 的 算法 进行 重建 。 根 据 所 需要 的 准确 度 和 能 达到 的 计算 
能 力 ， 这 些 算法 可 以 变 得 快速 或 者 准确 。 通 过 子 采样 能 获得 的 最 好 的 重建 : 最 终 彩 
色 图 像 的 每 个 RGB 像素 都 能 直接 从 原始 图 像 的 2 x 2 像素 获得 。 其 他 技术 可 能 会 出 
现 伪 彩色 ， 这 是 由 于 颜色 信息 在 相 邻 的 几 个 像素 之 间 的 传播 。 贝尔 图 像 仅 仅 是 
RGB 全 彩色 图 像 大 小 的 三 分 之 一 ; 这 样 有 利于 减少 传输 过 程 中 的 带宽 。 软 件 库 的 
部 署 是 为 了 执行 对 贝尔 图 像 直 接 进行 转换 和 检测 。 


18. 2.3 全 帧 快门 和 滚动 快门 


带 有 全 帧 快门 的 传感器 能 同时 曝光 所 有 的 像素 。 每 个 像素 整合 了 同一 时 间 来 自 
取景 现场 不 同 部 位 的 光 。 当 传感器 安装 在 快速 移动 的 车 辆 上 时 ， 如 果 快 门 的 速度 太 
慢 ， 可 能 产生 运动 模糊 。 在 某 些 情况 下 ， 如 对 车 道 的 检测 ， 运 动 模糊 可 以 使 处 理 图 
像 变 得 一 致 和 简单 ， 而 在 其 他 情况 下 ， 如 对 障碍 物 的 检测 ， 它 可 能 使 图 像 变 得 模糊 
而 不 能 使 用 。 全 帧 快门 需要 高 速度 的 电子 设备 ， 所 以 它 是 昂贵 的 。 全 帧 快门 是 典型 
的 CCD 技术 。 

另 一 方面 ， 对 于 CMOS 传感器 来 说 ， 滚 动 快门 的 选择 比较 简单 。 图 像 的 不 同 区 
域 (通常 是 每 行 ) 在 不 同 的 时 间 进 行 电子 曝光 。 这 可 能 会 引起 图 像 伪 影 ， 静 止 的 
图 像 倾 斜 或 者 图 像 序列 拌 动 。 当 相机 移动 时 或 者 所 摄取 的 场景 中 包含 移动 的 物体 
时 ， 就 会 发 生 这 种 效果 。 这 种 结果 对 于 摄影 机 和 消费 摄像 机 用 户 来 说 是 烦人 的 ， 
为 它们 不 能 用 于 图 像 分 析 ， 尤 其 是 在 汽车 系统 中 ， 做 不 到 在 同一 时 刻 摄取 完整 的 源 
图 像 。 


18.2.4 多 成 像 传感器 


视觉 系统 采用 一 个 或 多 个 传 感 需 。 把 两 个 成 像 顺 集成 到 一 块 电路 板 上 ， 并 从 不 
同 的 角度 定向 同一 场景 ， 这 样 形成 的 系统 就 是 立体 视觉 。 这 种 系统 在 设计 阶段 有 个 
额外 的 功能 需要 考虑 : 基线 ， 即 两 个 成 像 仪 之 间 的 距离 。 根 据 基 线 宽 度 ， 立 体 摄像 
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机 进行 调整 去 检测 不 同 距离 的 物体 : 长 的 基线 能 更 好 的 检测 远 处 的 物体 ， 而 短 的 基 
线 使 三 维 重 建成 为 可 能 。 如 果 传 感 器 安装 在 同样 准确 的 机 械 底座 上 ， 工 厂 调 校 的 任 
务 就 只 是 调整 取景 定向 。 如 果 传感器 是 分 别 安装 的 〈 如 在 两 个 单独 的 摄像 机 的 情 
况 下 ) ， 当 其 中 一 个 传感器 不 能 定向 时 ， 便 产生 了 传 感 带 之 间 的 互 校准 问题 。 

简单 的 检测 识别 系统 使 用 的 是 单 摄像 机 (单眼 ) 去 获得 图 像 流 ， 该 图 像 流 会 
被 分 析 。 这 种 系统 需要 知道 在 基准 参考 系统 中 摄像 机 的 方位 ， 来 准确 估计 被 检测 物 
体 的 距离 。 如 果 摄 像 机 安装 在 移动 的 车 辆 上 ， 其 方向 会 不 断 变化 ， 方 向 的 变化 取决 
于 许多 变量 ， 如 减 震 带 响 应 ， 和 车辆 速度 ， 或 者 路 面 不 平 度 。 通 过 分 析 获 取 的 图 像 或 
使 用 其 他 传 感 咒 ， 如 惯性 测量 单元 (IMU) ， 可 以 获得 准确 的 稳定 系统 ， 从 而 更 稳 
定 地 消除 这 些 变量 产生 的 影响 。 然 而 ， 只 有 在 平坦 的 场地 上 才能 实现 真正 的 稳定 
系统 。 只 有 在 假设 道路 宽度 不 变 或 车 道 专用 标记 结构 化 等 条 件 下 ， 单 摄像 机 系统 
对 道路 坡度 的 估计 才 是 可 能 的 。 另 一 方面 ， 即 使 在 不 平坦 的 场地 ， 立 体系 统 也 能 
对 距离 进行 估计 。 其 他 的 特征 ， 如 道路 坡度 和 瞬时 颠 艇 ， 可 以 通过 立体 系统 的 处 
理 检测 到 。 这 种 技术 的 缺点 是 成 本 高 ， 因 为 涉及 保持 传感器 一 致 ， 保 持 校 准 ， 并 
提供 额外 的 计算 能 力 。 对 于 一 些 特定 的 应 用 ， 也 可 以 设计 含有 两 个 以 上 摄像 机 的 
Kg, 


18.2.5 高 动态 范围 

















汽车 场景 的 亮度 范围 可 以 从 0. 1 - 50000cd/m? 。 当 前 的 传感器 不 可 能 在 一 次 拍 
摄 中 捕捉 到 这 一 动态 范围 2 。 获 得 高 动态 (HDR) 图 像 的 一 种 比较 廉价 的 方法 是 进 
行 多 次 拍摄 ， 例 如 两 次 拍摄 使 用 不 同 的 快门 值 ， 一 个 曝光 不 足 ， 一 个 曝光 过 度 ， 然 
后 使 用 一 种 算法 ， 把 它们 合并 在 一 张 动态 范围 得 到 扩展 的 图 像 里 面 。 

图 像 拍摄 可 以 使 用 不 同 的 传感器 或 者 相同 的 传感器 。 当 使 用 不 同 的 传感器 时 ， 
必须 要 在 同一 时 刻 拍摄 图 像 ， 以 确保 移动 物体 在 两 张 图 片 中 的 位 置 相同 。 遗 憾 的 
是 ， 这 种 技术 的 价格 昂贵 ， 因 为 它 需 要 两 个 定向 完全 相同 的 传感器 。 而 且 ， 由 于 两 
个 传感器 不 在 相同 的 位 置 ， 它 们 至 少 会 沿 着 一 个 轴 倾 斜 ， 导 致 最终 获得 的 图 像 会 出 
现 一 些 伪 影 。 因 为 这 些 原因 ， 其 他 技术 被 提出 来 ， 这 个 技术 是 ,在 不 同 的 时 间 用 相 
同 的 传感器 获取 图 像 ; 通 篆 使 用 这 种 方法 获取 静止 场景 的 HDR 图 片 。 在 汽车 应 用 
中 ， 摄 像 机 的 移动 是 产生 伪 影 的 罪魁 祸首 ， 因 为 两 路 连续 的 影像 从 两 个 不 同 的 视点 
去 取景 ， 与 目标 运动 或 静止 无 关 。 市 场 在 未 来 几 年 将 会 引进 新 的 CMOS ERA, 
种 传感器 的 像素 响应 在 图 像 的 不 同 区 域 可 能 会 不 同 ， 这 种 特点 是 有 用 的 ， 尤 其 在 照 
明 剧 烈 变化 条 件 下 ， 如 进出 隧道 和 存在 强烈 的 阴影 。 




















加 “动态 范围 是 在 同一 帧 内 最 多 光量 产生 的 最 亮 像素 与 最 少 光量 产生 的 最 暗 像素 的 比率 。 
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18.2.6 ” 帧 速率 和 处 理 速率 


汽车 系统 需要 在 尽 可 能 短 的 时 间 去 响应 事先 已 设计 好 的 各 种 情况 ， 并 通知 驾驶 

， 尽 可 能 使 驱动 系统 长 时 间 执 行 适 当 的 策略 。 这 就 需要 有 足够 高 频率 对 全 局 采 
。 显 然 计 算 该 频率 的 方法 不 唯一 ， 解 决 的 方法 能 在 不 同 的 约束 条 件 之 间 进 行 权 
， 其 中 最 重要 的 约束 因素 之 一 是 成 本 。 和 车 辆 速度 和 运动 类 型 一 如 直线 ， 曲 线 ， 或 
突变 ， 它 们 都 强烈 影响 着 每 秒 采集 更 多 样本 的 要 求 。 另 一 方面 ， 处 理 系统 应 该 有 足 
人 够 的 计算 能 力 ， 使 算法 运行 得 足够 快 ， 以 利用 传感器 传递 出 的 数据 量 。 这 就 对 新 一 
代 处 理 器 提出 新 的 要 求 ， 证 它们 能 够 具备 合适 的 处 理 速率 ， 这 一 点 对 于 处 理 不 同 分 
辨 率 的 图 像 时 尤其 重要 。 任 何 一 代 专 用 和 骨 入 式 处 理 芯片 需要 满足 ADAS 市 场 的 苛刻 
条 件 : 高 的 计算 能 力 ， 外 部 元 件 的 最 低 需 要 ， 低 功 耗 ， 大 范围 的 温度 ， 大 的 抗 冲击 
性 ， 以 及 最 终 可 直接 集成 到 智能 摄像 机 的 小 尺寸 。 


18.2.7 光学 器 件 


除了 传感器 ， 光 学 事件 也 影响 图 像 的 质量 。 根 据 不 同 的 焦距 ， 视 觉 使 图 像 发 
生 几 何 失真 。 这 种 失真 可 以 通过 查找 表 除 去 ， 这 种 查找 表 是 从 准确 的 理论 模型 或 
从 实验 测量 得 到 的 。 其 中 实验 测量 的 方法 比较 好 ， 因 为 它 使 整个 系统 的 结果 更 
准确 。 

镜头 捕捉 到 的 光量 ， 在 夜间 应 用 中 很 重要 。 只 能 接受 近 红 外 光 的 系统 应 使 用 明 
亮 的 镜头 ， 去 弥补 可 见 滤波 融 的 衰减 。 在 选择 何 种 镜头 ， 镜 头 的 太 寸 ， 镜 头 的 结构 
时 ， 光 通 量 SE) 应 要 仔细 地 考虑 。 

尺寸 较 大 (1/2 或 大 于 1/2) 的 高 清晰 度 传 感 絮 需要 找到 适当 的 镜头 ， 该 镜头 
要 能 覆 羡 传感器 的 整个 区 域 ， 否 则 可 能 会 发 生 暗 角 9 现 象 。 

根据 镜片 的 质量 ,镜头 的 光学 分 辨 率 将 不 同 。 分 辩 率 是 光学 系统 区 分 两 个 相 
邻 点 的 能 力 。 镜 头 的 质量 必须 根据 传感器 进行 适当 的 选择 。 高 清 镜 头 有 助 于 解决 
一 些 细节 问题 ， 这 些 细 市 在 进行 远 距 离 的 特征 检测 (如 交通 标志 或 行人 ) 时 是 
必要 的 。 

光学 占 件 通常 有 儿 个 可 以 调节 焦距 或 可 变 光圈 的 齿轮 。 在 汽车 环境 中 ， 锁 定 螺 
钉 对 这 些 齿 轮 有 益 ， 防 止 由 于 振动 而 引起 不 必要 的 移动 。 焦 距 或 光圈 的 任何 变化 都 
能 引起 孔径 角 的 改变 ， 然 后 很 可 能 使 传感器 的 光 心 发 生 移动 。 为 了 避免 校准 问题 ， 
在 极其 恶劣 的 环境 或 为 了 系列 生产 ， 固 定 焦 距 和 固定 光圈 是 最 好 的 选择 。 可 调 光学 
器 件 在 原型 设计 阶段 是 有 用 的 。 
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名” 暗 角 在 图 像 的 亮度 方面 有 明显 的 梯度 .图 像 中 心 附近 的 亮度 高 ， 从 而 使 周围 的 亮度 降低 。 
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18.3 安装 


本 节 概 述 了 在 汽车 应 用 方面 ， 系 统 安 装 时 的 一 些 主要 问题 和 制约 因素 。 

人 工 视觉 系统 的 一 些 典 型 问题 , 像 背 景 噪声 ， 摄 像 机 移动 ， 照 明 条 件 和 目标 特 
征 检测 ， 在 汽车 应 用 领域 更 显得 重要 。 汽 车 系统 不 同 于 工业 应 用 或 视频 监控 系统 ， 
摄像 机 处 于 运动 状态 ,使 场景 不 断 变化 ， 而 且 道 路 不 平坦 会 引起 车 辆 振动 和 震荡 ， 
因此 只 能 采用 统计 和 非 耗 尽 的 方法 来 确定 那些 目标 ， 如 行人 。 此 外 ， 系 统 布线 和 传 
感 需 定位 的 区 域 非常 有 限 ， 而 且 通 常 基于 摄像 机 的 汽车 系统 一 定 要 与 车 辆 其 他 的 传 
感 需 或 装置 连接 。 

由 于 这 些 原因 ， 实 现 一 个 完整 的 系统 ， 安 装 设计 是 最 复杂 的 挑战 之 一 。 系 统 设 
计 人 员 需 要 考虑 一 些 限 制 因 素 ， 这 些 限 制 因素 将 在 下 节 中 讨论 。 


18.3.1 功能 























ADAS 很 大 一 部 分 在 当前 市 场 上 可 以 得 到 ,还 有 一 些 不 久 的 将 来 将 会 出 现 *. 
目 适 应 巡航 控制 ，360° 全 方位 视野 ， 碰 撞 报警 和 上 自动 镜 车 ， 预 碰撞 安全 ， 和 车道 偏 离 
预警 ， 车 道 保 持 辅 助 ， 启 停 辅 助 ， 盲 点 检测 ， 车 道 变换 辅助 和 夜 视 。 

硬件 安装 很 大 程度 取决 于 系统 的 特定 功能 。 一 些 系 统 的 硬件 安装 比较 简单 ， 像 
车 道 偏离 警告 或 育 点 检测 : 智能 摄像 机 与 集成 在 车 辆 上 的 显示 融 相 连 。 其 他 的 系 
统 ， 如 启 停 或 碰撞 警告 系统 以 及 自动 刹车 ， 安 装 比较 复杂 : 立体 系统 或 传感器 要 与 
一 些 其 他 装备 融合 。 

有 复杂 预 碰撞 功能 的 ADAS， 如 一 些 行 人 检测 需 ， 需 要 较 复 杂 的 设计 ， 因 为 它 
们 需要 处 理 来 自 多 个 传 感 咒 的 数据 ， 这 些 数 据 可 能 用 于 其 他 目的 ， 去 执行 其 他 的 任 
务 ， 如 用 于 ESP (电子 稳定 程序 ) 的 单 轮 速度 探测 器 。 

对 于 多 传 感 需 系统 ， 同 步 功能 一 定 要 确保 伪 数 据 在 ECU (电子 控制 单元 ) 内 
不 再 进入 数据 队列 。 传 感 器 应 支持 同步 ， 通 常 以 一 个 方 波 触 发 采样 时 刻 。 如 果 传 感 
器 只 提供 一 个 选 通 脉冲 信和 号， 为 了 使 数据 能 实时 形成 队列 ， 在 ECU 内 部 需要 一 个 
鲁 棒 的 时 间 鹤 。 对 于 一 些 概 念 摄像 机 中 的 传 感 占 ， 其 数据 形成 队列 可 能 存在 一 定 的 


问题 。 
18. 3.2 设备 定位 的 技术 可 行 性 


在 原型 设计 阶段 ， 传 感 品 的 安装 必须 遵循 可 行 性 分 析 。 在 这 个 阶段 ， 安 装 成 本 
和 系统 性 能 这 些 限 制 因 素 一 定 要 与 美学 和 人 机 工程 学 一 并 考虑 。 感 知 系统 组 件 可 以 
安装 在 车 辆 的 周 半 ， 但 不 能 限制 驾驶 员 的 视线 ， 而 且 既 可 以 安装 在 车 舱 内 也 可 以 安 
装 在 车 舱 外 。 

这 些 选 择 由 目标 的 应 用 以 及 一 些 技术 问题 来 决定 。 安 闭 在 车 舱 内 ， 摄 像 机 可 以 
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避免 两 、 雪 和 尘土 的 侵扰 ， 但 是 必须 满足 一 些 美 和 人 机 工程 学 的 限制 条 件 。 而 且 ， 
如 果 系 统 采 用 红外 摄像 机 传感器 ， 现 代 的 热处理 挡 风 玻璃 会 滤 掉 近 红 外 波长 ， 这 样 
将 造成 信息 丢失 。 这 种 问题 可 以 用 不 同 的 方法 解决 ， 如 更 换 挡 风 玻璃 或 把 摄像 机 安 
装 到 车 舱 外 。 

远 红外 摄像 机 不 能 安装 在 车 舱 内 ， 因 为 挡 风 玻璃 不 能 透射 这 些 波 。 图 18. 3a 所 
示 为 FIR 摄像 机 集成 的 实例 。 然 而 ， 室 外 安装 一 定 要 应 对 与 环境 相关 的 一 些 问题 ， 
如 装置 的 清洁 ， 防 水 性 以 及 某 些 情况 下 的 抗 冲击 性 。 在 外 于 安装 装置 时 需要 有 保护 
系统 使 其 免 受 冲击 ， 如 安装 在 保险 杠 后 面 。 图 18. 3b 提供 了 一 种 把 摄像 机 安装 在 卡 
车 启动 抑制 系统 中 的 解决 方案 。 














图 18.3 FIR 视觉 系统 集成 的 实例 
a) 红外 摄像 机 安装 在 车 辆 前 方 的 中 心 位置 b) 把 立体 视觉 系统 集成 在 卡车 上 











18.3.3 布线 定位 


如 果 需 要 的 话 ， 装 置 定位 和 布线 必须 要 慎重 考虑 。 正 如 前 几 节 所 讨论 的 ， 
ADAS 系统 不 仅 需 要 适 于 集成 的 小 摄像 机 ， 它 对 车 内 的 影响 较 小 ， 而 且 和 需要 合理 的 
处 理 能 力 去 执行 任务 识别 。 由 于 这 两 个 需要 ， 仪 包含 传感器 和 处 理 单元 的 工业 智能 
摄像 机 ， 仍 然 无 法 满足 ADAS 应 用 。 理 想 的 解决 方法 是 把 视觉 传感器 与 紧凑 的 处 理 
单元 隔离 ， 而 通过 一 些 强大 的 接口 相连 ， 如 Ethernet， 火 线 或 USB 电缆 。 这 种 合适 
性 能 的 让 入 式 处 理 器 ， 可 以 较 灵 活 地 安装 在 车 辆 上 任何 空闲 的 地 方 。 有 些 系 统 在 传 
eae PN UE AT B24 ECU， 传 感 器 产生 的 结果 直接 显示 在 ECU 上 ， 如 驾驶 员 提 醒 。 
然而 ， 如 果 传 感 器 安装 在 车 舱 外 时 ， 传 感 器 与 ECU 之 间 连 接 电缆 的 放置 ， 需 要 考 
虑 诸如 温度 范围 ， 由 发 动机 产生 的 电磁 干扰 以 及 热 噪声 等 因素 ， 所 有 这 些 因素 都 会 
导致 信号 衰减 。 对 于 高 频 信 号 ， 这 些 问 题 很 重要 ， 如 高 分 辩 率 或 高 帧 率 的 摄像 机 。 
差分 总 线 如 CAN (控制 器 局 域 网 络 ) ， 火 线 或 LVDS (低压 差分 信号 ) 为 通信 提供 
必要 的 鲁 棒 性 。 
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18.3.4 照明 控制 


白天 时 场景 照明 由 天 气 条 件 决 定 。 当 摄像 机 安装 在 车 舱 内 时 ， 内 部 照明 会 在 玻 
璃 上 引起 反射 (如 图 18. 4a) ; 为 避免 这 种 影响 ， 在 摄像 机 周围 安装 一 个 黑色 的 小 
箱子 (如 图 18. 4b 所 示 ) 。 





b) 


18.4 当 存 在 反射 时 ， 和 车载 摄像 机 获得 的 彩色 图 像 为 a) 。 为 避免 摄像 机 的 
传感器 受到 反射 的 干扰 ， 可 能 的 解决 方案 在 图 b) 中 展示 出 来 





| 

















另 一 方面 ， 在 晚上 ， 即 使 使 用 NIR 摄像 机 ， 照 明 条 件 还 是 很 差 ， 此 时 系统 需 
要 合适 的 照明 硬件 (与 摄像 机 灵敏 度 光谱 有 关 ) 。 图 18. Sa， 两 个 不 同 NIR ATIS 
装 位 置 。 图 18. 5b， 把 NIR 照射 器 集成 在 前 照 灯 中 。 





图 18.5 a) 为 两 个 不 同类 型 的 近 红 外 灯 在 试验 车 辆 上 的 安装 位 置 。b) 为 夜 视 照 








明 系 统 的 组 成 ， 左 边 是 低 (高 ) 光束 灯 ， 中 间 是 NIR 灯 ， 右 边 是 停车 灯 。 





18.4 校准 


在 机 器 视觉 应 用 中 ， 摄 像 机 校准 是 主要 问题 之 一 。 通 常情 况 下 ， 校 准 使 算法 结 
果 与 客观 情况 一 致 。 人 们 很 难 把 算法 软件 与 它 的 应 用 直接 联系 起 来 。 
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校准 过 程 包 括 找到 摄像 机 的 外 在 参数 与 内 在 参数 ， 前 者 指 摄像 机 的 位 置 和 方 
向 ,后 者 指 摄像 机 的 内 参数 ， 即 焦距 、 光 心 等 。 

在 一 些 参 考 文献 中 ， 针 对 单眼 系统 “”“”*”， 立 体系 统 ”等 ， 提 出 了 摄像 
机 的 许多 校准 算法 ,但 这 些 算法 中 的 许多 与 一 些 特定 假设 相关 ， 它 们 使 校准 步骤 变 
得 容易 ;在 汽车 环境 中 ， 这 些 假设 通常 并 没有 得 到 验证 ， 例 如 ， 短 距离 的 感知 ， 吏 
止 场 景 或 静止 摄像 机 。 

在 立体 系统 或 在 通常 有 多 个 传感器 的 系统 中 ， 校 准 特 别 重 要 ; 事实 上 ， 当 校准 
误差 影响 单眼 系统 时 ,错误 的 结果 被 映射 到 真实 坐标 中 ; 因此 ， 校 准 处 理 最 后 一 步 
的 作用 减弱 。 另 一 方面 ， 当 校准 误差 影响 有 多 个 传感器 的 系统 (例如 立体 系统 ) 
时 ， 由 于 各 传感器 之 间 错 误 信 息 的 匹配 使 校准 作用 大 大 减弱 ， 因 此 校准 处 理 整体 的 
正确 性 被 折 中 。 

在 汽车 系统 中 ， 执 行 校准 最 常用 的 方式 是 采用 一 个 大 的 校准 网 格 ， 如 图 18.6 
所 示 。 通 过 校准 工具 ， 可 以 在 图 像 中 准确 找到 所 有 已 知 的 三 维 点 ， 从 而 把 这 些 点 联 
系 起 来 ;然后 提取 出 校准 参数 。 图 18.7 所 示 为 这 些 工具 中 的 一 种 ， 左 侧 显示 的 为 
获取 的 图 像 ， 右 侧 为 其 相应 的 实际 坐标 值 。 








图 18.6 左 侧 为 在 VisLab (http: //www. vislab. it) 中 汽车 校准 网 格 的 实例 。 每 个 
网 格 点 由 两 个 地 钉 显示 : 一 个 是 黄色 塑料 体 ， 用 于 可 见 光 摄像 机 ， 男 一 个 是 金属 
材料 的 光 反 射 体 ， 在 晚上 用 于 校准 FIR 摄像 机 和 可 视 化 摄像 机 。 右 侧 是 用 于 室内 























校准 的 类 棋盘 体 





18.4.1 机械 问题 


在 原型 设计 阶段 ， 摄 像 机 一 定 要 设置 一 些 不 同 程度 的 控制 。 在 调整 摄像 机 的 方 
便 性 与 系统 自 吴 的 鲁 棒 性 之 间 ， 做 出 理想 的 权衡 很 重要 。 要 使 摄像 机 能 以 最 好 的 方 
式 定 向 ， 选 择 合适 的 摄像 机 座 架 是 基本 要 求 。 在 许多 应 用 中 ， 三 个 轴 都 能 利用 非常 
重要 。 为 一 方面 ， 可 用 的 自由 度 越 多 ， 由 振动 或 其 他 机 械 原因 引起 摄像 机 的 移动 也 
就 越 多 。 然 而 ， 在 最 后 的 配置 中 ， 为 了 提高 鲁 棒 性 和 稳定 性 ， 将 摄像 机 固定 在 精密 
的 摄像 机 座 架 上 。 在 第 一 步 中 ， 调 整 摄像 机 座 架 很 有 用 ， 因 为 在 一 些 应 用 中 ， 特 定 
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方向 使 系统 与 一 些 特 定 假 
设 关联 起 来 ， 这 些 简 化 了 
假设 算法 ， 而 且 加 快 计 算 
we . 
校准 贯穿 产品 的 整个 
生命 周期 中 ， 它 一 旦 完 
成 ， 必 须 保存 。 否 则 ， 必 
须 实施 自动 程序 或 者 手动 
程序 来 补偿 漂移 。 在 自动 
程序 的 情况 下， 系统 定期 图 18.7 VisLab 开发 的 一 个 便携 的 摄像 机 校准 工具 
地 检查 系统 校准 ， 而 且 ， 
如 若 需 要 ， 系 统 会 运行 再 校准 算法 。 在 手动 程序 的 情况 下 ， 一 旦 检测 到 校准 误差 ， 
系统 或 者 会 向 终端 提供 简单 的 再 校准 程序 (例如 直行 驾驶 ) ， 或 者 建议 去 经 授权 的 
汽车 修理 厂 进行 再 校准 处 理 ， 例 如 ， 网 格 法 。 

还 必须 要 考虑 一 些 机 械 问题 ， 它 们 会 影响 校准 : 例如 ， 振 动 ， 它 在 汽车 应 用 中 
非常 重要 ， 尤 其 在 卡车 的 应 用 中 。 由 于 交心 不 同 于 图 像 中 心 ， 光 学 右 件 的 选择 也 很 
重要 。 光 心 是 校准 程序 必须 提取 的 内 在 参数 之 一 。 特 别 地 ， 如 果 重 新 校准 之 后 需要 
进行 聚焦 调整 ， 这 将 会 导致 内 在 参数 的 改变 ， 焦距 改变 而 且 光 心 位 置 也 会 改变 。 前 
者 是 聚焦 调整 的 直接 结果 ， 而 后 者 是 由 于 传 感 需 上 光学 元 件 安装 不 严密 而 导致 的 。 
事实 上 ， 如 果 透 镜 轴 与 传感器 平面 不 完全 垂直 ， 那 么 ， 旋 转运 动 就 会 导致 光 心 的 
移动 。 


18.5 特殊 的 汽车 问题 





























基于 摄像 机 的 汽车 系统 不 得 不 面 对 具 体 到 汽车 领域 的 问题 。 主 要 问题 是 由 于 摄 
像 机 安装 在 移动 车 辆 上 这 个 事实 ， 因 此 视觉 系统 及 其 相关 的 处 理 步骤 ， 相 对 于 车 辆 
运动 ， 必 须 是 鲁 棒 的 。 大 多 数 情况 下 ， 必 须 考虑 车 辆 上 自 运 动 。 除 了 自 运 动 ， 其 他 的 
运动 种 类 ， 如 振动 或 振荡 ， 对 基于 视觉 的 系统 来 说 是 噪声 源 。 

一 些 其 他 问题 与 室外 环境 的 具体 环境 条 件 有 关 。 事 实 上 ， 温 度 和 光照 条 件 在 变 
化 ， 而 且 几 乎 无 法 控制 。 特 别 是 照明 条 件 ， 一 定 要 考虑 到 极端 情况 ， 如 直射 阳光 或 
强烈 反射 。 此 外 ， 其 他 光源 ， 像 汽车 前 灯 或 反射 镜 ， 在 典型 的 汽车 场景 中 可 能 会 
出 现 。 

表 18. 2 总 结 了 与 汽车 环境 相关 的 一 些 具体 的 摄像 机 问题 。 
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表 18.2 汽车 应 用 中 涉及 的 摄像 机 特性 
























































事 项 自 运动 振荡 和 振动 光照 条 件 
oe 背景 的 移动 ， 视 角 发 生 | “与 自 运动 产生 的 噪声 | 反射 问题 的 存在 ， 目 标 
改变 TA 纹理 发 生 改 变 

运动 模糊 ， 目 标 发 生 " 摄像 机 出 现 眩 光 ， 识 别 
问题 追踪 目标 困难 
问题 六 化 追踪 目标 困难 dx 

快门 速度 越 快 处 理 效果 动态 范围 越 高 处 理 效果 
措施 ar = 很 好 地 检测 自 运动 ur TOT 


18.5.1 车 辆 自 运 动 


当 视 觉 系 统 安装 在 车 辆 上 时 ， 它 对 车 辆 的 运动 必须 是 鲁 棒 的 。 此 设计 问题 可 以 
通过 两 个 层次 来 检查 : 视觉 装备 〈 即 摄像 机 的 配置 ) 和 处 理 器 (算法 )。 

关于 摄像 机 ， 一 些 技 术 对 运动 伪 影 不 是 鲁 棒 的 ， 而 且 在 获取 的 图 像 中 运动 物体 
是 模糊 的 。 当 车 辆 急 转 弯 时 ， 整 个 背景 是 移动 的 ， 这 种 效果 尤为 明显 。 图 18. 8 所 
AR, FIR 摄像 机 的 这 种 效果 。 

















图 18.8 FIR 域 图 像 的 运动 模糊 实例 ， 它 是 通过 车 载 视觉 系统 获得 的 ， 当 车 辆 静 
止 时 ,获取 左边 的 图 像 ， 而 仅 在 几 秒 之 后 ， 当 车 辆 向 左 转 时 ， 拍 援 了 右边 


























的 图 像 ， 结 果 显 示 右 边 的 图 像 有 严重 的 水 平 运动 模糊 问题 











然而 ， 在 某 些 场景 下 以 及 对 于 特定 的 车 辆 运动 来 说 ， 模 糊 效果 可 能 有 用 ， 因 为 
它 隐藏 了 一 些 不 必要 的 细节 ， 一般 情 况 下 需要 避免 这 些 细 节 。 因 此 ， 在 设计 安装 
时 ， 必 不 可 少 地 仔细 选择 摄像 头 。 更 确切 地 说 ， 基 于 CMOS 的 旧式 摄像 头 ， 其 传 感 
器 可 能 运行 较 慢 ， 因 此 ， 它 会 因为 这 个 问题 受到 影响 。 相 反 ， 对 基于 CCD 摄像 头 
以 及 最 新 的 CMOS 摄像 头 来 说 影响 不 明显 。 

车 辆 的 运动 ， 也 叫 自 车 运动 ,一定 要 作为 图 像 处 理 算法 的 输入 。 对 于 视觉 系统 
来 说 ， 自 车 运动 的 计算 可 以 采用 机 器 视觉 技术 ， 如 背景 运动 的 分 析 或 视觉 测 程 
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RMT, 但是， 这 些 技术 需要 额外 的 计算 ， 而 且 并 不 总 是 适用 的 ， 在 这 种 情况 下 ， 
增加 一 些 通常 使 用 的 传感器 〈 通 常 价格 不 菲 ) 如 陀螺 仪 ， 里程 表 或 惯性 设备 。 


18.5.2 ”振荡 和 振动 


从 机 械 校准 的 角度 已 讨论 过 振荡 和 振动 ; 本 节 中 ， 涵 盖 了 在 汽车 应 用 中 对 具体 
问题 的 处 理 。 

除了 跟踪 ， 基 于 视觉 的 其 他 应 用 也 受到 了 汽车 运动 的 影响 。 事 实 上 ， 很 多 系统 
依赖 校准 ， 去 恢复 三 维 信息 或 去 检测 物体 。 遗 憾 的 是 ,一般 汽车 运动 引起 的 振动 或 
振荡 ， 会 影响 校准 ， 从 而 导致 结果 出 错 。 

因此 ， 图 像 稳定 技术 广泛 应 用 于 解决 这 种 问题 。 在 一 些 情况 下 ， 在 采集 图 像 的 
过 程 中 就 完成 了 图 像 稳定 ， 因 为 一 些 摄像 头 在 传 感 融 级 别 设 有 图 像 稳定 。 吃 一 个 基 
于 硬件 的 解决 方案 是 使 用 机 电 稳 定 的 平台 "或 基于 透镜 的 机 制 ”。 对 抑制 突 发 运 
动 ， 这 些 方法 一 般 有 效 ， 但 较 少 用 于 消除 特定 范围 内 的 运动 ， 因 为 这 些 运 动 是 汽车 
产生 的 典型 振荡 和 振动 | 。 

大 多 数 情况 下 ， 一 定 要 人 研发 出 来 一 种 特定 的 处 理 方法 ,专门 用 于 除去 这 种 噪声 
源 。 车 辆 自 运 动产 生 的 运动 分 量 需 要 保留 ， 同 时 又 需要 移 除 视觉 系统 运动 产生 的 有 
害 分 量 ， 从 而 导致 完成 这 个 任务 很 困难 。 

振荡 和 振动 被 认为 是 全 局 运动 的 高 频 分 量 ， 因 此 ， 当 试图 平滑 帧 间 运 动 时 可 采 
用 图 像 稳定 技术 。 在 一 些 特定 情况 下 ， 这 个 任务 可 以 简化 成 为 仅 消除 关键 噪声 分 
量 ; 事实 上 ， 是 否定 义 有 害 移动 取决 于 具体 的 应 用 ; 例如 ， 在 单 目 摄像 系统 中 ， 常 
常 需要 在 所 摄取 的 图 像 中 找到 垂直 特性 来 估计 距离 ， 颠 艇 变量 对 该 距离 的 估计 有 很 
大 的 影响 。 在 这 种 特定 的 情况 下 ， 必 须 消除 颠 艇 偏差 ， 以 避免 距离 佑 计 出 现 错 
iv!  。 相 反 ， 在 立体 的 系统 中 ， 距 离 可 以 利用 三 维 三 角 剖 分 计算 ， 但 是 ， 有 时 很 
多 基于 视觉 的 立体 系统 以 无 晃动 假设 为 前 提 。 在 这 种 情况 下 ， 当 晃动 变量 得 到 补偿 
HT, PUERTA) LS RAE ESRB BS B TAY o 

图 像 稳定 过 程 一般 分 为 两 个 不 同 的 步 又 : 帧 间 运 动 检测 和 运动 补偿 。 

在 第 一 步 中 ， 大 多 数 系统 利用 特征 检测 和 跟踪 技术 去 恢复 运动 过 程 。 此 外 ， 特 
征 属性 的 提取 与 稳定 性 的 需求 有 关 : 对 简单 的 稳定 技术 或 实时 应 用 时 ， 一 般 提 取 简 
单 的 特征 ， 如 边缘 提取 '“ 。 当 需要 较 准 确 的 稳定 处 理 时 ”，” ， 使 用 较 复杂 的 特征 提 
取 ， 如 车 道 标 线 。 

对 于 运动 检测 来 说 ， 男 一 种 方法 是 使 用 密集 匹配 技术 ， 如 图 像 视差 和 光 流 
计算 。 

运动 补偿 阶段 是 用 来 计算 旋转 平移 ， 它 应 用 于 连续 帧 中 ， 使 振动 和 振荡 引起 的 
噪声 最 小 化 。 在 简单 的 方法 中 ， 用 低 通 滤波 需 消除 运动 中 的 高 频 分 量 ， 但 较 复 杂 的 
方法 也 被 广泛 使 用 ， 它 是 利用 场景 的 额外 信息 ， 如 物体 或 背景 的 位 置 。 
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18.5.3 照明 条 件 


在 汽车 环境 中 ， 几 乎 无 法 控制 照明 ， 因 此 它 是 个 重要 的 问题 。 

事实 上 ， 天 气 条 件 ， 太 阳 不 同 的 位 置 和 人 工 光 源 ， 如 汽车 头 灯 或 路 灯 ， 对 现场 
照明 有 很 大 的 影响 。 在 白天 或 对 于 近 红 外 摄像 机 来 说 ， 它 们 会 影响 现场 照明 ， 而 对 
于 远 红外 摄像 机 ， 只 有 在 极端 的 情况 下 ， 如 阳光 直射 到 取景 框 或 当 光 源 也 产生 热 效 
应 时 ， 才 可 能 影响 现场 照明 。 阴 影 对 图 像 采 集 和 处 理 很 关键 ， 事 实 上 ， 当 场景 中 同 
时 存在 阴暗 区 域 和 完全 照 亮 区 域 时 ， 可 能 会 导致 采集 的 图 像 在 阴暗 的 地 区 太 暗 或 被 
照 区 域 太 亮 。 而 且 ， 阴 影 表 示 一 种 模式 ， 该 模式 会 干扰 基于 模式 匹配 技术 的 图 像 处 
理 系 统 。 阴 影 的 存在 也 间接 影响 FIR 域 ， 这 种 情况 是 由 于 光 具 有 热效应 。 事 实 上 ， 
太阳 光 或 者 人 造 光 使 暴露 于 光 下 物体 的 温度 会 增加 ， 因 此 产生 了 热 阴影 ， 图 18. 2b 
所 示 为 帐篷 的 阴影 对 墙 的 影响 ， 比 起 太阳 照射 其 他 部 分 ， 了 明 影 部 分 的 温度 较 低 。 

此 外 ， 车 辆 的 运动 可 能 会 导致 光照 条 件 突然 改变 。 当 太阳 光 突 然 进 入 取景 框 中 
或 者 当 进出 隧道 时 ， 最 糟糕 的 
情况 发 生 一 一 整个 图 像 会 全 部 
变 黑 或 者 全 部 变 白 。 

在 这 种 情况 下 ， 推 荐 使 用 
快速 自动 曝光 控制 (AEC) 的 
摄像 机 。AEC 作用 于 摄像 机 的 
增益 和 控制 ， 以 弥补 全 局 光照 
的 改变 。 在 摄像 机 的 传感器 
中 ， 由 于 大 的 增益 值 会 引入 只 
声 ， 最 好 是 有 一 个 系统 ， 其 主 
要 作用 于 快门 ， 用 来 维持 较 低 
的 增益 值 ， 而 且 这 种 系统 可 以 图 18.9 自动 曝光 控制 的 实例 ， 它 是 通过 定义 一 个 特定 的 
避免 监控 整个 画面 ， 把 曝光 控 区 域 (与 应 用 程序 相 匹配 ) 获得 的 ， 其 中 对 比 度 和 亮度 应 
制 的 区 域 缩小 至 实际 处 理 画 面 假定 为 最 优 全 
的 区 域 。 图 18.9 所 示 为 曝光 
控制 算法 的 评估 结果 ， 该 算法 的 构思 是 来 计算 图 像 下 部 最 理想 的 曝光 值 ， 由 于 感 兴 
趣 的 区 域 是 道路 而 不 是 天 空 。 在 这 种 情况 下 ， 上 曝光 计算 也 用 于 图 像 上 部 ， 尽 管 它 将 
使 路 面 完全 变 黑 ， 但 可 以 识别 到 行人 。 这 需要 摄像 头 为 控制 增益 和 快门 疫 有 输入 端 
口 ， 如 大 多 数 的 IEEE1394 或 基于 IP 的 摄像 头 或 内 部 存在 一 些 处 理 单元 的 智能 摄 
像 头 。 

18.5.3.1 模糊 效果 

模糊 效果 是 另外 一 种 伪 影 ， 在 可 见 光 区 域内 ， 使 摄像 机 的 图 像 质量 降低 : 在 低 
光照 条 件 下 ， 强 光 直 射 到 传感器 上 ， 产 生 明 亮 的 伪 影 ， 在 垂直 光线 下 效果 更 明显 
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(如 图 18. 10a) 。 这 种 效果 对 于 可 见 光 摄像 机 来 说 很 典型 ， 在 汽车 环境 中 ， 这 种 效 
果 很 容易 由 反射 镜 或 其 他 车 辆 的 头 灯 在 夜间 或 隧道 内 引起 。 这 种 效果 所 代表 的 是 图 
像 处 理 的 一 种 噪声 源 ， 会 导致 结果 出 错 ， 也 就 是 说 ， 车 道 标 线 检测 系统 往往 检测 路 
面 上 的 亮 标 线 ， 有 可 能 错误 地 把 模糊 效应 认为 是 车 道 标 线 。 

模糊 效果 是 由 摄像 头 内 部 的 内 反射 和 镜头 系统 引起 的 ， 对 于 红外 线 波长 ， 效 果 
不 明显 。 因 此 ， 模 糊 效果 对 近 红 外 摄像 头 的 影响 较 小 (如 图 18. 10b) ， 并 且 在 许多 
情况 下 近 红 外 摄像 头 可 以 替代 标准 的 日 光 摄 像 头 。 























a) 


到 18. 10 ”在 可 视 摄 像 机 a) 5 NIR 设备 b) 中 的 模糊 效果 























18.5.3.2 反射 和 上 胺 光 

反射 是 车 载 系统 问题 的 另 一 个 来 源 。 

最 坏 的 情况 是 由 于 强 光 反射 ， 使 摄像 机 眩光 而 且 导 致 图 像 饱和 ， 但 是 弱 反射 也 
使 获得 的 图 像 产生 伪 影 。 例 如 ， 图 18. 11 所 示 , 在 FIR 区 域 ， 潮 湿 的 柏油 马路 像 一 
面 镜子 ， 图 像 上 产生 了 的 行 鬼 影 。 为 了 减少 反射 ， 在 摄像 关中 应 使 用 偏振 镜 。 











18.11 ”对 于 远 红外 辐射 光 来 说 ， 潮 湿 路 面 的 反射 
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18.6 结束语 








事实 上 ， 车 载 摄 像 头 的 使 用 ,给 汽车 提供 了 大 量 的 机 会 去 全 面 认识 周围 的 环 
境 。 摄 像 头 能 记录 环境 中 很 多 细节 ( 即使 微小 的 细节 )， 而 且 所 采用 的 技术 与 人 类 
驾驶 时 所 采用 的 技术 相同 。 遗 憾 的 是 ， 即 使 摄像 头 能 达到 的 分 辨 率 和 清晰 度 高 于 人 
眼 ,但 仍然 有 需要 解决 的 问题 模仿 驾驶 员 不 仅 要 有 处 理 标 志 性 数据 的 能 力 ， 如 高 
帧 率 下 图 像 的 数据 ， 也 要 有 选择 场景 中 重要 部 分 的 能 力 ， 反 过 来 ， 所 有 的 这 些 也 可 
能 需要 移动 或 转动 摄像 头 的 头 部 。 在 电子 驱动 的 情况 下 ， 这 可 能 会 需要 或 者 移动 摄 
像 头 ， 或 者 融合 来 自 车 辆 周围 不 同 摄像 头 的 信息 ， 这 些 摄像 头 指 向 并 不 相同 。 

本 章 所 讨论 的 问题 清楚 地 表明 ， 为 ADAS 市 场 开发 智能 摄像 机 是 很 困难 的 。 事 
实 上 ， 匹 配 一 些 具体 限制 因素 是 强制 的 ， 尤 其 在 尺寸 ， 处 理性 能 以 及 可 靠 性 方面 ， 
当前 的 技术 在 这 些 方面 仍然 需要 提高 ， 使 智能 摄像 机 在 汽车 中 能 合理 安装 。 

比 起 其 他 一 些 传 感 融 ， 如 激光 扫描 仪 ， 摄 像 机 有 很 大 的 优势 ， 其 内 部 没有 可 移 
动 的 部 件 ， 而 且 如 果 增 加 机 械 部 件 使 其 机 身 移 动 ， 会 导致 其 在 恶劣 环境 下 的 适用 性 
降低 。 除 了 需要 增加 硬件 、 电 源 和 连接 线 外 ， 如 果 机 械 装置 不 够 准确 的 话 ， 摄 像 机 
定向 的 变化 也 会 使 传感器 的 校准 失效 ; 因此 ， 重 棒 监 视 系统 的 成 本 可 能 与 基于 多 摄 
像 头 解决 方案 的 成 本 相当 ( 如果 成 本 并 未 高 出 许多 的 话 ) 。 

最 后 的 解决 方法 是 基于 多 摄像 头 的 集成 ， 它 的 确 更 适合 越野 车 的 应 用 ， 由 于 起 
野 车 受到 巨大 和 强烈 的 振动 ， 因 此 ， 需 要 更 强大 的 伺服 机 制 ， 所 以 价格 昂贵 。 

摄像 机 另 一 个 巨大 好 处 是 在 无 源 传 感 技术 上 的 使 用 ， 因 此 军事 用 途中 尤其 喜欢 
使 用 它们 。 

与 其 他 一 些 传感器 一 样 ， 摄 像 机 需要 校准 后 才能 够 传送 信息 ， 这 些 信 息 注册 到 
环境 基准 系统 。 其 他 一 些 传感器 ， 如 激光 扫描 仪 需要 合适 的 安置 和 合适 的 方向 ， 因 
为 所 有 的 测量 结果 用 于 环境 重建 〈 由 于 三 维 场 景 中 样本 数目 有 限 ) 。 另 一 方面 ， 由 
于 成 像 设备 具有 高 分 辨 率 ， 即 使 摄像 机 没有 完全 校准 ， 也 能 对 数据 进行 分 析 ， 并 补 
涯 小 的 定位 误差 ( 图像 晃 动 )。 换 句 话说， 面向 地 面 的 激光 扫描 仪 总 是 产生 无 用 的 
数据 ， 但 经 过 特定 的 预 处 理 ， 摄 像 机 仍 能 提供 包含 有 意义 数据 的 图 像 。 

这 种 预 处 理 步 又， 按照 安装 时 定义 的 参数 ， 要 处 理 摄像 机 获得 的 每 帧 图 像 ， 目 
的 在 于 补偿 摄像 机 定位 时 出 现 的 小 误差 。 然 而 ， 一 些 视觉 系统 能 随时 对 自身 进行 再 
校准 ， 重 新 计算 预 处 理 参数 ， 以 补偿 摄像 机 移动 而 引起 的 方向 漂移 ， 这 是 由 于 强烈 
的 震动 或 偶然 的 摄像 机 移动 造成 的 。 

最 后 ， 比 起 其 他 的 一 些 传感器 ， 安 装 摄像 机 具有 另外 的 优点 : 雷达 或 激光 扫描 
仪 需要 安装 在 车 辆 前 方 ， 通 常 在 保险 杠 上 或 者 接近 保险 杠 ; 通过 这 种 前 置 方式 ， 可 
以 没有 任何 遮挡 地 获取 数据 。 然 而 ， 在 停车 过 程 中 ， 与 障碍 物 或 其 他 汽车 无 意 的 小 
确 碰 ， 或 者 在 高 速 行 驶 时 ， 与 前 面 车 辆 抛 出 的 泥土 和 石 块 碰撞 ， 都 可 能 会 损坏 传 感 
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器 。 另 一 方面 ， 摄 像 头 一 般 安装 在 车 舱 内 的 挡 风 玻璃 后 面 ， 因 此 ， 除 了 能 自动 保护 
自己 ， 避 免 奢 碰 、 石 块 或 泥土 ， 也 能 维持 在 理想 的 工作 温度 。 此 外 ， 在 一 些 安装 方 
式 下 ， 雨 刷 能 保持 下 雨 时 ,摄像头 前 面 的 玻璃 干净 。 

遗憾 的 是 ， 能 见 度 差 是 摄像 机 遭遇 的 一 个 主要 问题 ， 它 对 特 驶 员 有 影响 ， 而 且 
通常 是 导致 事故 的 原因 之 一 。 在 有 雾 或 大 雨 的 情况 下 ， 也 就 是 说 在 照明 条 件 特 差 的 
情况 时 ， 如 太阳 光 低 于 地 平 线 或 者 在 传感器 前 面 时 ， 摄 像 机 不 能 传送 有 意义 的 数 
据 。 一 些 波长 的 光 能 穿 透 雾 和 小 雨 ， 如 远 红 外 线 ， 但 日 光 或 近 红 外 做 不 到 这 一 点 。 

作为 结束 语 ， 有 必要 提醒 读者 ， 由 于 摄像 机 的 潜力 、 低 成 本 以 及 广泛 的 应 用 范 
围 ， 因 此 它们 具有 非常 大 的 发 展 前 景 ; 但 是 仅仅 靠 摄 像 机 可 能 无 法 消除 歧义 ， 且 无 
法 正确 地 感知 每 一 种 情形 。 例 如 ， 在 车 辆 前 方 ， 结 构 不 清 的 墙壁 就 几乎 无 法 被 感 
知 ， 就 像 灰 色 背 景 下 的 灰色 障碍 物 。 能 够 肯定 的 是 ， 要 成 功 处 理 每 一 个 情形 ， 必 须 
用 不 同 的 感知 技术 与 一 些 传 感 咒 进行 数据 融合 。 














第 7 部 分 


智能 摄像 机 市 场 


第 19 章 市 场 需求 和 分 析 


这 章 概 述 了 目前 智能 摄像 机 的 市 场 和 未 来 需求 情况 。 对 生产 商 及 批发 商 的 调查 
以 及 对 这 两 个 市 场 的 研究 结果 作为 信息 的 主要 依据 。 这 章 共 分 为 5 节 : 19. 1 对 视 
觉 和 智能 摄像 机 市 场 的 最 新 发 展 状况 做 了 简短 的 介绍 。 接 下 来 的 一 节 19.2 P, it 
论 了 智能 摄像 机 的 类 型 ， 并 进行 了 系统 的 分 类 ， 列 举 了 一 些 典 型 的 模型 实例 。 对 于 
目前 视觉 市 场 的 总 体 分 析 以 及 智能 摄像 机 市 场 的 专门 分 析 将 在 19. 3 进行 研究 。 
19. 4 讲述 了 智能 摄像 机 应 用 的 典型 领域 。 最 后 ，19. 5 主要 讨论 目前 用 户 对 智能 摄 
像 机 需求 以 及 各 领域 内 商业 经 济 发 展 的 不 同 要 求 。 


19.1 简介 


要 分 析 目 前 智能 摄像 机 市 场 及 其 技术 水 平 现 状 ， 就 要 对 全 球 机 器 视觉 市 场 做 一 
番 了 解 。 通 过 以 下 的 这 些 数据 ， 我 们 给 出 了 智能 摄像 机 市 场 及 其 应 用 的 增长 状况 。 

自 2005 年 以 来 ， 欧 洲 机 器 视觉 协会 (EMVA) 开展 了 欧洲 视觉 技术 市 场 年 度 
调查 报告 。 图 19. 1 显示 了 德国 视觉 市 场 从 1998 年 到 2008 年 的 发 展 状 况 。 德 国 供 
应 的 产品 在 欧洲 处 于 领先 地 位 (2007 年 占 欧洲 企业 总 销售 额 的 35%1"” ) ， 因 此 ， 
它 可 以 代表 全 球 市 场 发 展 状 况 。 行 业 在 2000 年 营业 额 增 长 最 大 ,增长 了 28% , 年 
均 市 场 增长 额 为 13% 。 
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图 19.1 从 1998 到 2008 年 ， 德 国 工业 视觉 的 总 营业 额 (国内 + A 
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这 种 发 展 表明 了 机 器 视觉 市 场 在 过 去 10 年 一 直人 处 于 增长 状态 。2007 年 受 全 球 
经 济 危 机 的 影响 ， 市 场 增 速 减缓 ， 仅 为 3.5% 。EMVA 的 调查 "中 也 揭示 了 机 器 视 
觉 应 用 的 发 展 趋势 。 即 “ 趋 于 简单 的 标准 化 系统 ， 如 视觉 传感器 或 智能 摄像 
机 ”9 。 尽 管 增长 额度 只 有 3.5% ,“ 欧 洲 供应 商 的 销售 量 总 共 增 加 了 19907 79, 

ALA 2008 年 机 器 视觉 市 场 研究 2 的 结论 与 欧洲 市 场 的 数据 分 析 相 吻合 ， 其 中 
包括 对 智能 摄像 机 的 分 析 。“ 在 机 器 视觉 (MV) 中， 智能 摄像 机 是 最 新 的 产品 ， 
而 且 其 市 场 增长 速度 最 快 "'”i。 在 北美 市 场 中 ， 智 能 摄像 机 的 营业 额 从 2003 年 的 
0.586 亿美 元 (USD) 增长 到 2007 年 的 1.166 亿美 元 1。 智能 摄像 机 市 场 营 业 增 
长 额 从 2003 年 的 43.3% 下 降 到 2007 年 的 2.1% ,而且 在 过 去 的 5 年 中 平均 营业 和 客 
增长 为 24. 6% 。 

由 此 得 出 的 结论 是 ,与 总 体 的 机 器 视觉 市 场 相 比 ， 智 能 摄像 机 市 场 的 平均 增长 
率 更 高 。 但 不 容 忽 视 的 是 ， 当 前 的 经 济 状况 对 这 一 形势 有 很 大 程度 的 影响 。 


19.2 智能 摄像 机 模型 的 概述 




















19.2.1 分 类 


为 了 能 够 概述 智能 摄像 机 模型 ， 对 智能 摄像 机 进行 系统 的 分 类 是 很 重要 的 。 对 
智能 摄像 机 进行 定义 以 及 对 不 同 摄像 机 模型 进行 分 类 有 很 多 不 同 的 方法 。 

Yu Shi ^" 对 “独立 的 智能 摄像 机 ”、“ 非 独立 的 智能 摄像 机 ”和 “网 络 智能 摄 
像 机 ”做 了 区 分 。 具 体 参 考 见 第 2 章 ， 而 且 第 2 章 对 智能 摄像 机 的 分 类 也 有 较 详细 
的 说 明 。 另 一 方面 ，AIA 把 市 场 上 的 智能 摄像 机 产品 分 为 三 类 : 智能 摄像 机 (又 称 
为 智能 拍摄 ) 、 视 觉 传 感 器 舱 入 式 视 觉 处 理 器 (又 称 为 蔡 和 人 式 视觉 计算 机 和 紧凑 
型 视觉 系统 ) 2。 术语“ 视觉 传感器 ”主要 用 于 机 器 视觉 领域 ， 在 此 领域 中 通常 
主要 指 低 端 智能 摄像 机 。EMVA 这 样 定义 智能 摄像 机 : “智能 摄像 机 具有 岁入 式 智 
能 运算 的 功能 ， 包 括 微 处 理 器 ，DSP 或 FPGA， 通 过 对 它们 编程 使 得 摄像 机 类 似 于 
基于 PC 的 可 配置 抓 帧 系统 。 它 自身 可 以 完成 机 器 视觉 算法 的 计算 "572 EMVA 的 
研究 也 对 智能 摄像 机 和 视觉 传感器 做 了 区 分 ，AIA 也 做 过 同样 的 研究 ， 但 这 两 者 的 
定义 之 间 存 在 细微 差别 。 

2008 年 在 德国 的 斯 图 加 特 召 开 的 机 器 视觉 交易 会 上 2 ， 作 者 对 智能 摄像 机 生产 
商 和 分 销 商 进 行 了 一 个 调查 。 结 果 非 常 出 人 意料 ， 在 生产 商 / 分 销 商 的 惯用 词汇 中 
并 没有 通常 定义 的 “智能 摄像 机 ”这 个 术语 。 典 型 的 标签 有 “视觉 传 感 需 ”与 
“具备 智力 的 摄像 机 ”， 但 这 些 词 汇 有 时 也 用 于 非常 相似 的 产品 中 。 在 一 些 国 家 中 ， 
例如 日 本 ， 人 们 通常 把 与 标准 摄像 机 相连 的 智能 视觉 装置 也 称 作 “智能 摄像 机 ”， 















































iS) 也 称 作 2008 年 机 器 视觉 展览 。 http: //cms. messe- stuttgart. de/. 
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Buxbaum Automation 的 CEO, Dietmar Buxbaum 也 持 有 这 样 的 观点 。 

所 以 用 这 样 的 术语 显然 难以 对 市 场 上 的 智能 摄像 机 进行 分 类 。 根 据 智 能 摄像 机 
的 内 部 架构 也 可 对 其 进行 分 类 。 但 由 于 舱 入 式 系统 发 展 的 速度 相当 快 ， 没 有 一 个 有 具 
有 持久 性 的 特征 可 以 作为 分 类 的 依据 。 通 过 分 析 商 品 交易 会 上 的 调查 结果 ， 终 端 用 
户 ( 他 /她 ) 可 能 会 对 以 下 四 个 主要 问题 有 所 质疑 〈 他 /她 必须 解决 一 些 问题 ， 但 
与 图 像 处 理 无 关 ) : 

D 我 可 以 直接 连接 专用 的 输入 /输出 设备 来 进行 快速 设置 么 ?( 如 触 屏 、 键 盘 、 
显示 器 、 和 鼠标) 

D 我 需要 个 人 电脑 来 进行 配置 吗 ? 

O 我 需要 开发 专用 的 图 像 处 理 算 法 吗 ? 

D 我 可 以 连接 专用 的 输入 /输出 设备 来 进行 通信 和 编程 吗 ? (如 触摸 屏 、 键 盘 、 
TIRAR, BUR) 

可 以 把 这 些 问题 映射 到 二 维 空间 。 在 其 中 的 一 个 维度 中 ， 可 配置 系统 的 空间 与 
可 编程 系统 空间 不 同 ， 在 另 一 个 维度 中 ， 骨 入 式 系 统 的 空间 与 类 PC 系统 的 空间 不 
Eo RAR” RRR ERLE PC 系统 对 其 进行 配置 。 类 PC 系统 是 一 
种 独立 的 智能 摄像 机 ， 为 了 达到 通信 /配置 的 要 求 ， 装 备 了 触摸 屏 或 者 键盘 /显示 
器 ， 这 意味 着 不 需要 额外 的 PC。 当然 ， 类 PC 系统 也 是 般 入 式 系统 ， 不 应 与 基于 
PC 的 系统 混 消 〈“ 基 于 PC” 表示 与 个 人 计算 机 相连 的 标准 摄像 机 ， 其 中 图 像 处 理 
在 个 人 计算 机 上 进行 ) 。 

图 19.2， 按 区 间 对 智能 摄像 机 进行 了 分 类 。 图 19. 3 给 出 了 有 关 这 些 类 型 产品 
的 具体 信息 。 选 择 这 些 产 品 型 号 并 不 意味 着 对 智能 摄像 机 进行 任何 一 种 等 级 分 类 : 
因为 还 有 来 自 同一 或 其 他 制造 商 的 许多 型 号 的 智能 摄像 机 未 被 列 出 。 尽 管 各 种 型 号 
的 产品 之 间 并 不 存在 明显 的 界限 ， 下 面 仍然 把 它们 划分 为 四 个 主要 类 别 (具体 参 
照 图 中 的 每 个 象限 ) : 

@ 类 PC/ 可 配置 (1) 。 这 种 类 型 的 智能 摄像 机 是 一 个 独立 的 装置 ， 可 以 很 容 
易 地 配置 一 些 附 加 的 外 设备 ， 如 专用 组 件 或 触摸 屏 。 检 测 ， 位 置 的 估计 ， 条 人 码 的 读 
取 等 等 都 是 一 些 典 型 应 用 。 它 没有 标准 的 处 理 单 元 可 供 使 用 。 生 产 者 提供 了 应 用 软 
件 而 应 用 软件 提供 了 标准 化 的 功能 。 这 些 系统 使 用 起 来 非常 容易 。 尤 其 是 在 生产 环 
境 中 执行 检查 任务 时 ， 其 优点 是 可 以 直接 进行 交互 。 

O ik AD TAC (2) 。 这 种 类 型 的 智能 摄像 机 ， 为 了 完成 装置 的 配置 ， 需 要 
一 个 外 部 的 个 人 计算 机 。 它 是 很 有 用 的 ， 如 果 几 个 摄像 机 通过 以 太 网 连接 ， 那 么 此 
配置 可 以 在 个 人 或 便携 式 计算 机 上 进行 。 没 有 可 供 使 用 的 标准 处 理 单元 ， 也 不 可 能 
加 载 自主 研发 的 应 用 。 与 类 PC/ 可 配置 的 情况 相似 ， 系 统 仅仅 为 检测 任务 进行 参数 
调整 。 一 些 先进 系统 使 脚本 处 理 成 为 可 能 ,这 意味 着 用 户 可 以 把 预定 义 的 图 像 处 理 
算法 与 实施 较 复 杂 的 检验 任务 相 结合 。 当 用 户 特定 的 配置 或 脚本 上 传 以 后 ， 智 能 摄 
像 机 可 以 自主 进行 工作 ， 再 不 需要 用 户 介 入 。 
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图 19.2 智能 摄像 机 模型 分 类 的 综述 


Q 艇 入 式 / 可 编程 (3)。 骨 入 式 /可 编程 智能 摄像 机 系统 较为 先进 。 它 们 为 客 
户 提供 专门 解决 方案 中 所 需 的 图 像 处 理 算法 。 这 种 客户 是 系统 集成 商 ， 而 不 是 最 终 
用 户 。 制 造 商 给 系统 提供 软件 开发 工具 包 (SDK)， 此 外 提供 图 像 处 理 软 件 库 。 
Matrix Visions 提供 的 模型 mvBlueLYNX、 图 像 处 理 库 mvImpact， 都 具有 丰富 的 功 
能 。 摄 像 机 应 用 的 开发 通常 在 个 人 电脑 上 进行 ， 然 后 移植 到 摄像 机 上 。 一 般 来 说 ， 
该 系统 基于 一 个 操作 系统 (通常 是 UClinux 或 Linux 操作 系统 专用 版 本 ) ， 它 提供 
了 基本 的 系统 访问 功能 。 矢 入 式 / 可 编程 类 型 的 智能 摄像 机 不 支持 诸如 触摸 屏 / 键 
盘 / 鼠 标 之 类 的 设备 ， 所 以 没有 个 人 计算 机 系统 就 不 能 完成 配置 。 

O 类 PC/ 可 编程 (4) 。 这 种 类 型 的 智能 摄像 机 可 以 理解 为 带 有 集成 视觉 传 感 
器 的 小 型 个 人 计算 机 。 用 户 可 以 直接 与 显示 器 、 键 盘 、 鼠 标 相 连 ， 或 者 使 用 能 人 式 
操作 系统 ， 如 Linux 或 Windows 散人 入 式 。 其 软 硬 件 分 离 良 好 ， 这 就 使 得 用 户 不 仅 可 
以 使 用 制造 商 所 提供 的 软件 库 ， 还 可 以 利用 第 三 方 提供 的 软件 库 。 正 如 来 自 Maxx- 
Vision 的 CEO 赛 义 德 索 利 曼 所 说 ， 这 种 类 型 的 智能 摄像 机 将 会 引领 这 一 技术 的 未 
来 ,每 当 改进 性 能 后 的 新 智能 摄像 机 推出 时 ， 还 可 重用 已 开发 的 应 用 软件 。 软 件 的 
开发 不 仅 可 以 直接 在 智能 摄像 机 上 进行 ， 也 可 以 在 具有 标准 开发 环境 的 个 人 电脑 上 
进行 。 用户 可 以 选择 不 同 的 操作 系统 (如 Linux 或 Windows fA) 。 













































































> - eas . 的 | 检 | 型 | 解 | 标 
类 型 经 销 商 生产 商 (产品 ) 型 号 操作 单元 (对 象 ) | DPRK 内 存 - 2. 
is | 查 | 号 | 码 | 定 
用 位 
In-Sight Micro 1020 
Buxbaum/Stemmer- ° Texas Instrument 640 x 480 64MB 一 xX|x|-x 
类 PC/ 可 配置 Imaging Cognex with Vision View 
i Datasensor 
Datasensor Smart Vision Sensor 1 Blackfin-DSP 640 x 480 not known - |x |x|x |x 
Datasensor Datasensor Smart Vision Sensor 2 Blackfin-DSP 640 x 480 not known 一 x|x|x x 
x . Hawkeye 1600TS RISC Processor 648 x 494 64MB - X xXx x 
Microscan Microscan 
Hawkeye 1600TH RISC Processor 1024 x 768 64MB —-[X[X xx 
CA GA np BOSE Inspector Vision Sensor 800HMz 384 x 384 not known -[XxX|[X!- x 
Sick Bu IVC-3D 800MHz 2048x1 | notknown | x | -| -1-|- 
Buxbaum/ Insight 5600 Texas Instrument 640 x 480 64MB - X|x xx 
Cognex 
Stemmer-Imaging Insight 5604 Texas Instrument 1024 x1 64MB 一 x |x |x |x 
640 x 480. . 
Matrix Vision Matrix Vision mvBlueLynx 400 power pe 200MHz 32MB x |x] xi} x fx 
1600 x 1200 
HRA GN n] d FE 
Vision Texas Instrument 
Vision Components VC4466 1024 x 768 64MB —-[X[X|x x 
Components 1GHz 
eXcite exA1390 RM9000 1392 x 1040 
Basler Basler 128MB - x| x] xx 
eXcite exA1600 1. 0GHz 1624 x 1236 
类 PC/ 可 编程 640 x 480. . 
Matrix Vision Matrix Vision mvBlueLynx 600 power pc 400MHz 64MB X |x] x} x fx 
1600 x 1200 
- XCI-V100/V100C VIA Eden,1GHz | 640 x480 512MB x [X|X|xx 
Maxx Vision Sony 
XCI-SX100/SX100C VIA Eden,1GHz | 1280 x 1040 512MB x [X|X|xx 

















图 19.3 ”制造 商 代表 及 嵌入 式 可 配置 智能 摄像 机 的 分 类 
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19.3 市场 描 述 


19.3.1 视觉 市 场 的 概述 


为 了 准确 地 突显 智能 摄像 机 市 场 的 状况 ， 最 好 首先 综 览 一 下 所 有 的 机 器 视觉 市 
场 。 本 文 概括 了 来 自 EMVA (欧洲 ) 和 AIA (美国 ) 的 调查 结果 。 因 此 ， 所 关注 
的 焦点 将 是 欧洲 公司 和 北美 市 场 的 情况 一 一 欧洲 和 美国 是 两 个 具有 代表 性 的 经 
济 体 。 

欧洲 机 器 视觉 市 场 (基于 参与 的 公司 ) 在 2007 年 取得 €7.69 亿 (欧元 ) 的 营 
业 额 0"i。 增 长 了 4% ， 说 明了 机 器 视觉 技术 正在 发 生 的 变化 ， 正 如 在 19. 1 节 中 所 
提 到 的 。 

图 19. 4 概述 了 欧洲 视觉 公司 产品 的 总 销售 额 。 特 定 应 用 的 视觉 系统 和 摄像 机 
仍然 是 最 畅销 的 产品 。 智 能 摄像 机 并 没有 获得 较 好 的 销售 价值 。 在 ATA. 所 做 的 调 
查 中 ， 视 觉 传感器 作为 智能 摄像 机 的 一 部 分 ， 销 售 效果 也 不 好 。 从 早期 智能 摄像 机 
产品 的 生命 周期 状态 中 也 可 以 说 明 这 一 点 。 如 图 19.5, 

2006 年 和 2007 年 欧洲 视觉 公司 * 的 总 销售 价值 

















特定 应 用 的 视觉 系统 
可 配置 的 视觉 系统 
智能 摄像 机 
视觉 传感器 
摄像 机 
照明 设备 
光学 镜头 
抓 帧 器 
视觉 软件 
接口 和 电缆 
其 他 视觉 附件 











0 50,000 100,000 150,000 200,000 250,000 300,000 350, 000 
! TNT 
* 参 与 公司 以 1000 欧 元 为 单位 











&|19.4 2006 年 和 2007 年 欧洲 视觉 公司 的 总 销售 额 价 值 '”" 














图 19. 6 给 出 了 按 地 区 分 割 的 欧洲 营业 额 。 有 三 分 之 二 的 营业 额 在 欧洲 产生 ， 
而 美国 与 亚洲 完成 其 余 的 营业 额 。 
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图 19.6 欧洲 供应 的 视觉 产品 在 2007 年 按 地 域 划 分 
情况 下 的 总 营业 额 


机 器 视觉 行业 2007 年 在 北美 达到 了 1555.5 百 万 美元 (USD) 的 营业 额 ， 相 当 
于 1175.5 百 万 欧元 (EUR), 


19. 3.2 智能 摄像 机 市 场 


如 图 19. 4 显示 ， 与 视觉 产品 的 总 收入 相 比 ， 智 能 摄像 机 和 视觉 传感器 销售 业 
绩 相 对 疲软 。 这 些 产品 销量 的 增幅 如 图 19.7 所 示 。 从 2006 年 到 2007 年 ， 智 能 摄 
像 机 销售 额 增长 了 5% ， 而 视觉 传感器 销售 额 增长 幅度 显著 ,为 58% 。 

从 2006 年 到 2007 F, 虽然 智 能 摄像 机 的 销售 额 增加 ,但 销售 量 下 降 了 16% 。 
相反 ， 视 觉 传感器 的 销售 量 却 增 加 了 179. 9% 。 销 售 数字 反映 了 基本 的 发 展 趋势 。 

北美 市 场 情况 如 图 19. 8 ， 乍 一 看 有 些 不 同 。 与 2006 年 相 比 ，2007 年 不 仅 销售 
收入 增加 (2.196), ， 而 且 销 售 量 也 增加 ( 6.190) 。 但 也 必须 考虑 到 ，AIA 所 
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2006 年 到 2007 年 欧洲 供应 * 的 视觉 产品 销量 变化 
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图 19.7 2006 年 到 2007 年 欧洲 供应 的 视觉 产品 销量 变化 


做 关于 智能 摄像 机 包括 视觉 传感器 在 内 的 研究 与 EMVA 的 人 研究 结果 截然 不 同 。 基 
于 EMVA 数据 ， 对 智能 摄像 机 和 视觉 传感器 综合 分 析 表 明 ， 销 售 额 增加 比例 为 
+17.9% ; 销售 量 增加 比例 30. 8% 。 通 过 对 比 EMVA 和 ATA. 得 到 的 这 两 组 数据 ， 
考虑 到 所 有 的 问题 之 后 ， 显 然 可 以 看 出 ， 视 觉 传感器 使 得 智能 摄像 机 市 场 复苏 
了 。 对 于 2007 年 的 业绩 ，AIA 做 出 如 下 解释 : “2007 年 业绩 一 反 智 能 摄像 机 疲 
软 增长 的 常态 ， 这 反映 出 了 经 济 放 缓 的 状况 ， 并 没有 偏离 了 智能 摄像 机 产品 生命 
周期 ”2 。 


实际 数值 ”实际 数值 ”实际 数值 ”实际 数值 _ 实 际 数值 





















2003 2004 2005 2006 2007 | CAGR 
收入 / (SH) $58.6 $86.7 $99.2 $114.2 $116.6 下 
96 43.396 48.096 14.496 15.2% 2.1% 10.4% 


18,296 19,695 23,448 27091 | 28,750 
% 27.9% 7.60% 19.1% 15.5% 







13.4% 














p KA ($H) 台 套 数 


图 19.8 2003 到 2007 年 智能 摄像 机 的 销售 收入 ， 单 位 : 百 万 美元 2 
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19.3.3 智能 摄像 机 与 PC 


了 解 智 能 摄像 机 市 场 的 发 展 需要 考虑 一 个 问题 。 那 就 是 智能 摄像 机 能 长 久 蔡 代 
基于 PC 的 系统 吗 ? 尽管 对 智能 摄像 机 有 不 同 的 定义 ， 然 而 参与 此 讨论 的 企业 对 这 
个 问题 的 答案 却 非 常 相 似 。 从 访谈 中 可 以 看 出 他 们 对 基于 PC 的 系统 和 智能 摄像 机 
的 褒贬 。 

首先 ， 一 个 总 体 结论 就 是 : 基于 PC 的 系统 将 永远 不 会 被 淘汰 。 它 们 将 变 得 更 
小 且 更 紧凑 ， 也 许 它们 最 终 也 会 成 为 智能 摄像 机 。 这 个 理论 的 事实 依据 : 为 了 响应 
ATA 研究 中 提 到 的 廉价 紧凑 型 智能 摄像 机 ， 引 入 了 成 本 较 低 而 且 性 能 较 好 的 基于 
PC 的 系统 。 

针对 基于 PC 的 系统 ， 存 在 这 样 一 些 观点 : 不 断 开发 新 技术 、 性 能 更 高 、 提 供 更 
复杂 的 解决 方案 、 实 现 多 摄像 头 的 解决 方案 。 还 有 一 些 与 之 相反 的 观点 : 需要 更 多 的 
咨询 以 及 关于 集成 的 专门 知识 ， 更 复杂 的 销售 、 支 持 和 培训 ， 存 在 数据 传输 的 瓶颈 。 

针对 智能 摄像 机 ， 一 些 生产 商 /供应 商 的 观点 是 : 用 户 可 以 进行 特定 的 应 用 开 
发 、 性 能 偏 低 但 足以 满足 客户 需求 、 它 们 的 体积 小 、 湾 在 的 应 用 范围 不 断 增 加 和 易 
于 使 用 。 

总 之 ， 所 有 的 访谈 中 都 提 到 ， 基 于 PC 的 系统 总 是 用 在 一 些 最 新 的 且 复 杂 的 特 
定 应 用 中 。 如 果 商 家 认为 市 场 足 够 有 利 可 图 ， 那 么 基于 的 PC 系统 将 发 展演 变 为 小 
体积 紧凑 型 摄像 机 产品 。 显 然 ， 基 于 PC 的 系统 和 智能 摄像 机 将 会 共存 下 去 。 















































19.4 SRA AY Ay Fini 


有 必要 对 19. 3 节 中 给 出 的 销售 数字 按照 应 用 领域 或 终端 用 户 行业 进行 划分 。 
但 由 于 缺乏 数据 或 由 于 相关 方面 不 愿 提供 信息 ， 进 行 这 样 的 划分 区 别 几 乎 不 可 能 。 
在 这 一 节 中 给 出 由 AIA 提供 的 一 些 有 意义 的 数据 ， 我 们 将 会 看 到 智能 摄像 机 应 用 
领域 的 多 样 化 及 可 能 性 。 


19.4.1 按照 产业 /应 用 领域 统计 的 销量 


如 图 19.9，AIA 的 研究 表明 机 械 和 电子 装配 检验 是 智能 摄像 机 应 用 最 广泛 的 
领域 ， 分 别 是 (27.9% GE (7.8), 35.996 KA (+14.2))， 其 次 是 零件 
(12. 796 台 套 ，10. 096 A). 和 字符 识别 (12.6% 台 套 ，13. 696 WA) 。 

AIA 也 提供 了 终端 用 户 行业 的 数量 。 半 导体 制造 业 (27.5% BE, 4.8% 收 
A) 占 智能 摄像 机 在 北美 市 场 销售 额 的 三 分 之 一 ， 其 次 是 电子 业 (12.496 R 
18. 6% 收 入 ) 与 汽车 制造 业 (10. 2% 台 套 ，13.2% 收 入 )。 在 非 制造 业 ， 医 学 和 生 
物 技术 的 应 用 最 多 ， 占 总 销售 量 的 8% ， 然 而 收入 其 微 ， 只 有 0. 1% 。 在 智能 交通 
系统 (ITS) 领域 中 ,产品 数量 仅 为 所 有 销售 量 的 1.7% ， 而 收入 比 为 2. 5% 。 
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2005 | 2006 | 2007 | 2005 | 2006 
BER SER | 台 套数 | 收入 | 收入 
二 维和 三 维 测量 9.7% | 8.4% | 9.496 | 5.1% | 4.0% 
表面 缺陷 /外 观 分 析 18.1% | 12.2% | 11.496 | 22.7% | 20. 496 
机 械 / 电 器 装配 检查 18.9% | 20.1% |27.9% | 22.0% | 21. 796 
视觉 伺服 (二 维和 三 维 ) 0.0% | 0.0% | 0.0% | 0.0% | 0.0% 















































位 置 分 析 一 机 器 人 引导 5.6% | 3.6% | 1.8% | 4.0% | 3.9% 
定位 分 析 一 搜索 3.6% | 9.4% |11.7% | 4.5% | 5.2% 
字符 识别 12. 396 | 15.6% | 12.6% | 11.3% | 17. 996 
零件 识别 15.2% | 13.9% | 12.79% | 13.1% | 12. 296 
二 维 符号 读 取 12.3% | 12.9% | 7.6% | 9.9% | 11. 496 
4.3% | 4.0% | 4.9% | 7.4% | 3.3% 
100. 0% | 100. 0% | 100. 0% | 100. 0% | 100. 0% 




































































图 19.9 智能 摄像 机 销量 按 应 用 领域 划分 的 百分比 


ALA 提供 的 数据 及 专家 、 生 产 者 和 供应 者 的 一 些 观 点 共同 表明 : “智能 摄像 机 
应 用 领域 的 多 样 化 ， 说 明了 它们 在 机 器 视觉 领域 用 途 广 泛 ”'”|。 

创办 《视觉 系统 设计 》 杂 志 的 主编 安德鲁 威尔逊 认为 ,智能 摄像 机 主要 的 应 
用 领域 有 机 器 视觉 、 图 像 处 理 、 遥 感 、 农 产品 检验 、 食 品 检验 、 生 物 医 学 分 析 、 机 
器 人 视觉 等 领域 。 一 项 对 智能 摄像 机 制造 商 的 调查 表明 ， 摄 像 机 在 自动 化 、 交 通 控 
制 、 安 全 、 医 疗 技术 、 市 场 营销 、 娱 乐 业 、 回 收 业 、 汽 车 行业 (车 内 ) 等 领域 都 
有 其 应 用 。 所 有 提 到 的 应 用 领域 可 以 归纳 成 四 个 主要 方面 : 

D 机 器 视觉 /自动 化 ; 

D 交通 控制 /安全 ; 

QA (ÆW); 

@ 其 他 。 

通过 对 特定 应 用 领域 进行 调查 ， 发 现 当 前 智能 摄像 机 的 应 用 有 一 些 共 同 特 点 。 
正如 安德鲁 威尔逊 所 提 到 的 :“ 大 约 十 年 前 ， 最 早出 现 的 智能 摄像 机 对 车 载 系统 的 
处 理 能 力 有 限 ”。 过 去 的 几 年 中 ， 技 术 的 不 断 进 步 和 方便 用 户 使 用 的 界面 的 发 展 使 
得 智能 摄像 机 越 来 越 被 人 们 所 接纳 。 这 个 过 程 仍 在 继续 。 目 前 仍然 有 必要 对 客户 进 
行 培训 使 其 了 解 并 接纳 智能 摄像 机 。 成 功 的 智能 摄像 机 经 销 商 和 生产 商 已 经 提供 了 
这 样 的 培训 课程 。 目 前 ， 智 能 摄像 机 供应 商 越 来 越 多 ， 也 说 明了 智能 摄像 机 所 获得 
的 成 功 。 

很 多 人 对 智能 摄像 机 的 发 展 很 看 好 ， 与 此 相反 ， 也 有 一 些 反 对 意见 。 常 见 的 问 
题 出 现在 多 摄像 头 系统 的 领域 中 。 比 起 智能 摄像 机 ， 这 些 系统 较为 昂贵 ， 尤 其 在 用 于 
安全 与 交通 部 门 的 系统 中 。 但 似乎 上 共有 价格 因素 能 使 多 摄像 头 系统 的 数据 量 减少 。 

作为 当前 市 场 的 早期 评 佑 ，Matrix Vision 公司 标准 产品 的 总 经 理 Furtner 先生 
说 :“ 在 一 个 成 熟 的 市 场 中 ， 你 需要 耐力 和 资金 支持 来 开发 具有 创新 性 的 产品 ， 如 



































286 智能 摄像 机 





智能 摄像 机 ”。 在 当前 的 经 济 危 机 条 件 下 这 是 特别 有 意义 的 。 
19.4.2 ”机 器 视觉 /自动 化 


ALA 提供 的 数据 以 及 通过 采访 得 到 的 结论 说 明 ， 制 造 业 和 自动 化 行业 是 当前 智 
摄像 机 最 大 的 市 场 。 如 工厂 自动 化 、 汽 车 生产 、 包 装 业 和 机 固 人 系统 这 些 应 用 都 
它 的 主要 驱动 者 。 特 别 是 ， 机 需 人 应 用 存在 着 巨大 的 市 场 。 传 统 的 机 器 视觉 市 场 
智能 摄像 机 发 展 的 源 果 ， 这 也 说 明了 机 需 视觉 市 场 成 为 主导 的 原因 。 

事实 上 ， 这 种 情形 在 未 来 儿 年 可 以 得 到 改变 。Basler 公司 的 产品 经 理 沃 纳 先生 
认为 ， 在 接 下 来 的 几 年 中 ， 和 瞬 入 式 PC 与 Gigabit Ethernet 结合 的 摄像 机 在 机 器 视觉 
市 场 中 将 会 发 挥 重 要 作用 。 


19. 4.3 ”交通 控制 /安全 


在 交通 控制 领域 ， 必 须 考虑 到 其 所 处 的 特殊 环境 。 灵 活 的 接口 犹如 车 钥匙 ， 如 
GigE。 目 前 ， 类 似 区 域 监控 和 
熙 道 误 驾 检 测 的 应 用 以 及 河流 
中 船舶 计数 的 多 种 解决 方案 已 
经 实现 。 摄 像 机 的 处 理 能 力 可 
以 实现 不 同 种 类 的 智能 处 理 。 
自动 选择 有 意义 的 目标 来 完成 
摄像 机 的 自 校 准 是 当今 智能 摄 
像 机 的 一 种 技术 成 果 。 

图 19. 10 给 出 了 视频 内 容 
分 析 (VCA) 技术 的 全 球 市 场 
情况 ，VCA 是 交通 控制 和 安全 
系统 (ITS) 的 一 个 重要 组 成 
Por, FELLA, RARR 
统 的 性 能 比 基 于 PC 系统 的 性 
能 要 好 。 表 明了 智能 摄像 机 的 图 19. 10 ”视频 内 容 分 析 的 全 球 市 场 一 2008 年 版 ， 

应 用 在 日 益 增长 。 IMS 研究 ; 分 析 员 ，Niall Jenkins 

智能 摄像 机 在 安全 领域 的 
应 用 同样 非常 广泛 。 典 型 的 智能 摄像 机 应 用 包括 以 太 网 组 网 、 智 能 网 、 机 场 入口 控 
制 和 客户 外 表 确 认 。 而 且 ， 智 能 摄像 机 生产 商 认 为 未 来 ITS 领域 会 是 一 个 驱动 领 
域 ， 它 会 将 应 用 范围 扩大 到 大 众 的 市 场 。 


19.4.4 汽车 (车 内 ) 
智能 摄像 机 在 驾驶 辅助 系统 中 的 运用 是 一 个 非常 特殊 的 应 用 领域 。 对 于 大 多 数 
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机 器 视觉 市 场 中 的 智能 摄像 机 生产 商 而 言 ， 这 个 市 场 似乎 很 难 占领 。 对 摄像 机 的 体 
中/ 尺寸 有 特殊 要 求 ， 且 成 本 要 低 ， 还 要 工作 在 复杂 的 环境 中 ， 这 些 都 是 在 汽车 行 
业 中 开展 业务 的 巨大 障碍 。 

为 了 能 得 到 一 些 启发 ， 著 名 的 宝马 集团 提供 了 一 些 信息 。 以 下 是 书面 问卷 的 结果 。 

该 公司 定义 智能 摄像 机 为 “小 而 廉价 的 多 功能 摄像 机 ”， 他 们 认为 : “智能 摄 
像 机 能 为 客户 增加 新 的 功能 ， 并 使 他 们 的 产品 更 有 吸引 力 ”。 只 有 智能 摄像 机 在 价 
格 和 尺寸 等 方面 上 具有 优势 时 这 些 才 能 成 为 可 能 。 这 些 优势 在 其 他 行业 也 提 到 过 。 
宝马 使 用 的 智能 摄像 机 基于 CMOS 传感器 ， 而 且 具 备 宽 动态 范围 (HDR) 功 
能 。 因 此 ， 他 们 使 用 了 “能 在 市 场 上 买 到 的 经 过 精心 修正 的 标准 摄像 机 ”。 据 推 
测 ， 他 们 使 用 了 OEM 摄像 机 板 卡 。 

目前 ， 以 下 汽车 系列 安装 有 智能 摄像 机 : 宝马 5 AM, 宝马 6 系列 ; 新 宝马 7 
系列 ; 宝马 X5 和 X6。“ 这 些 应 用 将 延伸 到 更 多 的 车 型 ， 只 是 目前 我 们 还 不 能 说 出 
具体 是 哪些 " 。 虽 然 无 法 确切 计算 每 年 宝马 会 应 用 多 少 台 智能 摄像 机 ， 因 为 车 的 数 
量 大 小 取决 于 客户 的 订单 多 少 ， 但 总 体 趋势 很 明显 ， 那 就 是 数量 是 持续 上 升 的 。 

对 于 宝马 集团 而 言 ， 最 关注 的 四 个 方面 是 : 分 辨 率 、 更 好 的 HDR 性 能 、 灵 活 
的 读 取 方式 以 及 价格 。 对 于 分 辩 率 来 说 ， 目 前 使 用 的 是 VGA 制式 ， 但 在 未 来 的 应 
用 中 分 辩 率 势必 会 加 倍 。 对 于 在 黑暗 以 及 在 非常 明亮 的 情况 下 使 用 智能 摄像 机 ， 
HDR 性 能 必须 尽 可 能 地 提高 。 而 价格 要 在 保证 高 质量 的 前 提 下 尽 可 能 降低 。 

当前 通过 智能 摄像 机 实现 了 的 应 用 : 车 道 偏离 警告 、 远 光 灯 辅助 、 限 速 信息 、 
侧面 成 像 、 备 份 摄像 机 。 未 来 的 技术 开发 包括 面向 各 种 应 用 的 先进 目标 识别 ， 例 
如 : 驾驶 员 辅助 系统 的 应 用 。 

出 于 市 场 竞争 的 考虑 ， 宝 马 集团 没有 公布 详细 销售 细节 。 


19.4.5 其 他 


在 应 用 领域 方面 ， 医 学 和 生物 技术 行业 是 目前 最 令 人 感 兴趣 的 领域 。 在 ATA 
调查 的 数据 中 也 显示 了 这 一 点 。 从 细胞 分 析 到 测量 眼镜 度数 ， 只 有 这 个 领域 才能 提 
供 如 此 丰富 多 样 的 应 用 。 较 小 尺寸 、 强 大 的 处 理 能 力 是 智能 摄像 机 在 这 一 领域 被 广 
泛 使 用 的 原因 。 

在 休闲 娱乐 领域 还 有 一 些 其 他 应 用 ， 如 : 新 式 互 动 游乐 公园 、 体 育 运 动 分 析 、 
电影 行业 专用 的 多 视角 摄像 机 ;市 场 营销 领域 : 通过 购物 邮件 分 析 计 算 客户 流 ; 或 
者 回收 业 : 空 瓶 回收 机 。 


































































































19.5 市 场 需 求 








显 微 扫描 业务 的 开发 主管 John Agapakis 对 于 评估 客户 需求 提供 了 一 个 很 好 的 
启示 :“ 更 简单 、 更 快捷 、 更 小 巧 、 更 便宜 ”。 这 些 都 是 对 智能 摄像 机 提出 的 广义 
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要 求 。 但 具体 来 说 ， 对 摄像 机 的 需求 取决 于 不 同 的 观念 和 实际 应 用 的 需要 。 图 
19. 5 显示 了 AIA 在 年 度 机 器 视觉 市 场 研究 中 所 提出 的 智能 摄像 机 产品 的 生命 周期 
和 它 当 前 所 处 的 时 间 段 1。 这 种 增长 方式 和 这 类 产品 的 不 断 更 新 表明 ， 智 能 摄像 
机 下 处 在 产品 生命 周期 的 增长 阶段 ”i 。 这 意味 着 ， 在 未 来 的 几 年 中 ， 智 能 摄像 机 
还 将 存在 许多 未 知 的 改进 ， 尤 其 是 如 Balsa remarks 的 运营 部 主任 Steve Geraghty 所 
说 “工业 自动 化 的 需求 永远 不 会 比 技 术 上 的 可 行 性 更 快 ”。 

在 机 融 视 觉 市 场 ， 系 统 集成 商 和 最 终 用 户 的 需求 是 不 同 的 。 对 可 配置 /类 PC 
机 的 智能 摄像 机 来 说 ， 主 要 的 要 求 是 简单 的 安装 和 配置 。Datasensor 的 产品 经 理 
Thomas Bauer 声称 “通过 图 形 用 户 接口 ， 不 超过 三 个 步骤 就 可 进行 系统 配置 ”。 但 
组 件 尺 寸 和 价格 也 很 重要 ，Sick 管理 委员 会 成 员 Gokstorp 博士 说 :“ 集 成 成 本 必须 
大 幅度 降低 ” 。 而 且 这 些 摄像 机 几乎 只 有 终端 用 户 使 用 。 

可 配置 /能 入 式 智 能 摄像 机 也 应 该 具有 安装 方便 的 特点 。 其 配置 可 能 面临 更 多 
的 挑战 ， 因 为 为 了 处 理 更 复杂 的 图 像 ， 它 使 用 了 诸如 脚本 计算 的 高 级 功能 。 算 法 的 
性 能 和 稳定 度 非常 重要 ， 这 些 智能 摄像 机 主要 使 用 者 是 要 求 更 高 的 终端 客户 ， 但 是 
正如 施 特 默 影像 有 限 公 司 的 视觉 解决 方案 销售 经 理 Peter Kepper 所 说 : “如 果 去 咨 
询 系统 集成 商 ， 所 有 方案 都 是 负担 不 起 的 ”。 

高 端 智能 摄像 机 、 崩 入 式 / 可 编程 类 型 的 摄像 机 ， 最 重要 的 是 有 更 好 的 性 能 。 
它们 最 主要 的 客户 就 是 需要 解决 高 度 复 杂 的 图 像 处 理 任务 的 系统 集成 商 。 他 们 寄 希 
望 于 通过 技术 专家 在 对 这 些 系统 安装 和 使 用 后 ， 能 形成 一 个 良好 的 开发 环境 。 同 
样 ， 特 别 的 图 像 处 理 软件 库 也 很 有 必要 (如 。Matrix Visions mvBlueLynx 提供 了 一 
个 叫做 mvIMPACT 的 特殊 软件 库 ) 。 通 常情 况 下 ， 客 户 可 以 选择 各 种 不 同 的 模型 来 
匹配 应 用 所 需 的 性 能 (如 不 同 分 辨 率 640X480-1600X1200，32 ~ 512MB 内 存 ， 处 
理 咒 速度 500MHz ~ 1GHz) o 
智能 摄像 机 演变 的 最 终结 果 是 类 PC/ 可 编程 的 智能 摄像 机 ， 如 索尼 的 新 XCL 
系列 (VIOO/SXIOO) BK Basle 的 eXcit 2&7], eXcit 系列 到 目前 为 止 是 由 知名 Halcon 
库 所 支持 。 对 于 索尼 XCL 系列 使 用 的 图 像 处理 库 是 Cognex VisionPro®, Dalsa 
Sapera™ Processing, IJ Sherlock" Software? 。 在 此 系统 上 甚至 有 可 能 与 键盘 、 鼠 
标 和 显示 器 连接 ， 这 几乎 就 是 一 个 基于 PC 机 的 系统 ， 只 是 放 在 了 一 个 小 空间 内 并 
且 安 装 了 一 个 成 像 传感器 。 智 能 摄像 机 软 硬 件 的 高 级 解 耦 方法 是 先进 智能 摄像 机 系 
统 的 未 来 发 展 方向 。 

























































































致谢 : 作者 感谢 下 列 组 织 机 构 为 我 们 提供 具体 的 研究 数据 ， 以 供出 版 使 用 。 
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Sayed Soliman, CEO 


CD Microscan www. microscan. com 





John Agapakis, Director- Business Development 
Sick AG- www. sick. com 
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第 20 昔 ”智能 摄像 机 的 未 来 发 展 方 问 


摘要 ”由 于 智能 摄像 机 的 技术 、 用 途 及 用 户 需 求 在 快速 不 断 地 变化 发 展 ， 预 测 
其 未 来 发 展 趋 势 非常 困难 。 本 章 基 于 一 些 实际 依据 和 指标 的 分 析 ， 试 图 阐明 智能 摄 
像 机 的 发 展 前 景 。 并 且 从 三 个 方面 总 结 智能 摄像 机 未 来 的 发 展 方向 和 远景 ， 包 括 人 研 

















和 优势 是 集成 与 智能 。 然 而 实现 集成 与 智能 关键 在 于 岁入 式 的 处 理 占 ， 它 能 够 确保 
在 实际 应 用 环境 中 进行 视觉 运算 的 可 靠 性 。64 位 处 理 技术 和 多 核 处 理 需 能够 在 智 
能 摄像 机 系统 中 发 挥 作用 ， 从 而 显著 地 提升 系统 性 能 。 增 强 处 理 顺 的 能 力 ， 并 辅 以 
可 重复 编程 的 功能 ， 将 有 助 于 克服 智能 摄像 机 的 缺点 ， 增 强 灵 活性 。 本 童 基于 以 上 
提 到 的 三 个 方面 对 智能 摄像 机 的 未 来 发 展 方向 进行 详细 的 分 析 。 





























20.1 研究 热点 





关于 智能 摄像 机 的 研究 热点 主要 是 一 些 开 放 性 的 研究 问题 ， 未 解决 的 科学 问 
题 ， 和 新 的 具有 挑战 性 的 方向 。 研 究 趋 势 主 要 在 电子 工程 领域 (关系 到 未 来 的 成 
像 技术 ) 、 计 算 机 工程 (关系 到 未 来 的 能 入 式 系统 ) 和 计算 机 视觉 (关系 到 未 来 的 
计算 机 视觉 技术 ) 。 结 合 实际 中 的 研究 重点 ， 以 下 讨论 的 题目 关系 到 智能 摄像 机 的 
未 来 发 展 方向 。 

1. 片上 系统 (SOC) 

电子 技术 和 系统 的 性 能 与 效率 正在 不 断 进步 ， 并 且 将 会 在 未 来 的 几 十 年 中 继续 
车 动 发 展 。 微 电子 领域 的 重点 是 在 发 片上 集成 计算 智能 来 改善 系统 的 功能 。 视 觉 传 
感 器 芯片 不 仅 要 捕获 图 像 ， 而 且 还 要 通过 板 载 模拟 或 数字 电路 执行 计算 机 视觉 算 
法 ， 而 不 需要 电脑 或 嵌入 式 计 算 。 整 个 芯片 可 能 会 压缩 得 非常 精 小 ， 体 积 将 小 于 一 
美 分 硬币 的 尺寸 。 利 用 这 些 片上 系统 5 ， 智 能 摄像 机 将 会 变 得 越 来 越 便宜 ， 低 能 
耗 ， 而 且 可 集成 无 线 技 术 。 

2. 计算 机 视觉 和 图 像 理 解 

计算 机 视觉 旨 在 通过 计算 机 算法 来 实现 人 类 视 沉 功能: 例如 识别 、 理 解 和 感知 
图 像 。 尽 管 一 个 大 型 的 科研 团体 正在 参与 这 一 领域 的 探索 ， 由 于 以 上 任务 对 于 计算 
机 来 讲 比 较 复 杂 ， 因 而 仍 存在 大 量 尚未 解决 的 研究 问题 。 例 如 ， 尽 管 在 过 去 的 三 十 
年 间 已 经 投入 大 量 精力 进行 视觉 应 用 研究 ， 视 频 监 控 的 水 平 仍然 由 于 许多 视觉 技术 
的 不 成 熟 而 受到 影响 。 类 似 于 目标 的 识别 、 认 知 、 分 割 、 情 景 感知 、 理 解 等 ， 在 自 
动 化 操作 和 (或 ) 无 人 监控 应 用 方面 还 远 不 够 成 熟 。 正 是 由 于 该 领域 的 技术 复杂 
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性 使 得 科研 团体 和 科研 人 员 不 断 扩 增 。 未 来 的 智能 摄像 机 将 会 因此 而 直接 产生 突破 
性 的 成 果 。 

3. 仿生 视觉 

受 生物 学 影响 ， 视 觉 神经 科学 家 、 电 子 和 计算 机 科学 家 研究 并 模仿 人 类 的 视觉 
系统 。 在 这 一 领域 ， 科 学 家 们 关注 人 类 视觉 机 制 (眼睛 、 大 脑 、 神 经 传导 ) ， 并 且 
建立 了 计算 机 算法 和 (或 ) 视觉 系统 来 完全 模拟 生物 学 。 例 如 ， 神 经 信息 学 科 的 
创始 人 之 一 并 且 是 人 机 视觉 研究 的 先驱 一 一 大 卫 马尔 ， 为 了 模拟 人 类 视觉 的 效 
果 ， 在 早期 的 研究 中 中 致力 于 获取 图 像 中 显著 的 灰 度 变 化 。 卡 福 . OR PEO?! 建立 
了 神经 形态 工程 学 ,在 VLSL (超大 规模 集成 电路 ) 系统 中 去 模拟 生物 理论 。 这 些 
理论 激发 了 以 电子 和 计算 机 科学 家 为 主 的 许多 研究 团体 去 探索 新 的 生物 视觉 
技术 056.5] 

利用 这 些 未 来 的 技术 ， 智 能 摄像 机 肯定 会 朝 着 智能 眼睛 和 (或 ) 可 视 电 脑 2 方 
向 发 展 。 

4. 网 络 摄像 机 

摄像 机 变 得 越 来 越 小 巧 ， 成 本 降低 ， 应 用 范围 越 来 越 广 ， 安 装 使 用 数量 也 在 与 
日 俱 增 。 另 一 方面 ， 存 储 设备 的 容量 也 在 激增 ， 成 本 却 在 降低 。 因 此 ， 今 后 50 年 
内 ， 现 在 或 者 未 来 会 有 数量 庞大 的 摄像 机 ( 按 十 亿 计 ) 以 十 万 亿 亿 或 一 亿 亿 亿 bit 
的 数据 量 进行 运算 或 传输 。 这 方面 已 经 引起 了 一 些 科研 团体 的 注意 ， 他 们 努力 推动 
区 入 式 系统 进入 更 广阔 的 研究 领域 ， 如 超 计 算 、 分 布 式 计算 以 及 广义 计算 。 为 了 管 
理 集 中 式 、 分 布 式 或 混合 式 的 大 型 摄像 机 网 络 ， 许 多 科学 家 正在 探索 研究 其 相应 的 
系统 和 工具 。 其 他 研究 群体 正在 研究 有 关 信 息 存 档 和 大 型 数据 库 检 索 的 技术 。 未 来 
几 十 年 ， 这 些 领 域 的 研究 成 果 将 有 助 于 智能 摄像 机 智能 和 性 能 的 改善 。 

5. 传感器 融合 

通过 同类 传 感 锅 〈 同 质 网 络 ) 或 不 同类 型 传 感 带 ( 异 构 网 络 ) 采集 的 联合 信 
县 来 分 析 目 标 或 环境 ， 即 所 谓 的 传感器 融合 。 视 觉 传 感 融 往 往 成 为 传 感 网 中 的 成 员 
之 一 ， 因 为 它 能 提供 一 个 目标 或 环境 的 超级 信息 。 能 与 视觉 感知 融合 的 其 他 传感器 
类 型 包括 声波 、 超 声波 或 红外 传感器 。 传 感 器 融合 是 功能 强大 且 具 有 挑战 性 的 概 
念 ， 能 利用 某 种 传感器 的 优势 来 弥补 其 他 传感器 的 缺点 或 改善 目标 识别 率 ， 从 而 提 
高 联合 传 感 系统 的 可 靠 性 和 实用 性 。 传 感 器 融合 研究 的 突破 无 颖 将 使 智能 摄像 机 拓 
展 到 新 的 用 途 ， 例 如 监控 、 安 全 、 机 器 视觉 和 健康 监护 。 
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20.2 应 用 趋势 





许多 人 研究 成 果 是 由 应 用 的 需求 所 推动 产生 的 。 一 些 科学 家 因此 而 整合 他 们 的 成 
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果 来 解决 面向 特定 应 用 的 实际 问题 。 一 般 来 说 ， 得 到 可 从 应 用 领域 获 利 的 一 方 的 资 








金 支持 ， 许 多 科学 家 进而 开展 研究 。 我 们 相信 ， 这 种 应 用 导向 的 研究 将 主导 未 来 智 
能 摄像 机 的 发 展 。 
1. 多 媒体 


未 来 消费 者 所 使 用 的 摄像 机 将 不 仅 用 于 获取 图 像 ， 同 时 也 拥有 特定 的 功能 ， 像 
生物 识别 、 个 人 识别 、 跟 踪 和 安全 。 示 来 智能 摄像 机 的 一 些 用 途 包 括 手 机 摄像 ， 笔 
记 本 或 台式 电脑 摄像 (如 聊天 和 视频 电话 ) 。 将 来 ， 智 能 摄像 机 还 将 涉及 其 他 用 
途 ， 如 目标 识别 、 检 索 、 归 档 等 。 特 别 地 ， 视 频 电 话 很 有 可 能 成 为 未 来 智能 摄像 机 
的 一 个 重要 功能 "1 。 目 前 ， 大 多 数 手 机 摄像 机 是 专 为 拍照 的 。 在 不 久 的 将 来 ， 人 
们 会 想 利 用 摄像 机 实现 更 多 的 用 途 ， 而 不 仅仅 是 拍照 ' 空 ] 。 一 些 手机 相机 已 经 可 以 
在 超市 扫描 产品 标签 或 代码 ， 并 可 连接 电话 到 产品 生产 者 或 厂商 '”1 的 网 站 。 另 
外 ， 手 机 31 还 可 舰 入 一 个 crosswatch 系统 来 定位 视 障 行人 。 未 来 其 他 的 用 途 还 有 ， 
生活 环境 帮助 "1 和 娱乐 设施 ， 包 括 从 用 户 的 环境 中 提取 信息 ， 进 而 增加 移动 平台 
的 实用 价值 和 乐趣 等 。 

2. 机 器 视觉 

由 于 工业 生产 对 机 器 视觉 的 需求 增加 ， 知 能 摄像 机 的 应 用 将 会 提高 机 器 视觉 在 
质量 控制 、 检 验 和 其 他 工业 任务 中 的 性 能 (速度 和 准确 性 方面 )。 在 不 久 的 将 来 ， 
机 器 视觉 可 能 继续 成 为 智能 摄像 机 应 用 的 主要 商业 市 场 。 最 近 许 多 智能 摄像 机 的 制 
造 商 依靠 他 们 在 机 器 视觉 中 成 功 的 经 验 和 技术 ， 已 经 扩展 其 到 非 机 器 视觉 市 场 ， 例 
如 来 访 许可 、 文 档 处 理 、 交 通 工 程 和 零售 物流 方面 。 总 的 来 说， 这 一 趋势 对 于 商业 
发 展 和 市 场 中 智能 摄像 机 的 应 用 增长 是 一 个 好 消息 。 随 着 和 鹏 入 式 处 理 器 的 性 能 持续 
改善 ， 三 维 视 觉 和 立体 视觉 将 会 提高 一 些 机 器 视觉 和 机 器 人 应 用 的 性 能 ， 并 推出 一 
些 新 的 应 用 。 

3. 监控 和 安全 

在 需要 自主 管理 的 情况 下 ， 监 控 和 安全 保障 是 智能 摄像 机 所 面临 的 挑战 性 任 
务 。 针 对 公共 空间 ， 限 制 空 间 ， 私 人 空间 和 工业 领域 的 自动 监控 系统 将 是 智能 摄像 
机 的 主要 用 途 。 智 能 摄像 机 已 经 被 广泛 应 用 到 智能 交通 系统 (ITS) 。 例 如 自动 车 
牌 识别 (ANPR) ， 它 是 一 项 有 关 收 取 拥 堵 费 的 技术 。 因 为 世界 上 拥挤 的 城市 可 能 
更 容易 接受 道路 或 车 道 收 费 和 拥堵 费 ， 在 不 久 的 将 来 ， 基 于 智能 摄像 机 的 ANPR 应 
用 将 变 得 更 加 广泛 。 其 他 可 能 的 用 途 包 括 交 通 事 故 自动 检测 、 行 人 安全 和 道路 
执法 。 

4. 太空 和 机 器 人 

在 未 来 ， 探 索 遥 远 的 宇宙 和 接近 其 他 星球 的 太空 任务 需要 智能 摄像 机 [5 和 自 
动 化 系统 。 这 个 应 用 不 仅 涉及 计算 机 视觉 ， 而 且 涉及 微 电 子 在 空间 技术 的 运用 ， 而 
这 一 技术 通常 是 昂贵 的 ， 降 低 太空 摄像 机 的 价格 将 是 一 个 主要 的 目标 任务 。 
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5. 车 载 应 用 

车 载 应 用 是 智能 摄像 机 最 有 意义 的 应 用 之 一 ， 因 为 智能 摄像 机 可 以 帮助 车 辆 迅 
速 地 巡视 周围 的 驾驶 环境 。 智 能 摄像 机 的 低 耗 能 、 小 体积 、 自 动 化 都 是 车 载 摄像 机 
的 重要 特征 。 然 而 ， 汽 车 应 用 也 是 最 具 挑 战 性 的 。 在 机 器 视觉 中 ， 摄 像 机 通常 固定 
不 动 ， 所 监测 的 目标 相对 易于 检测 和 识别 。 在 安全 监控 应 用 中 ， 目 标 对 象 可 以 移 
动 ， 识 别 任务 就 变 得 困难 。 然 而 ， 在 车 载 应 用 中 ， 摄 像 机 通常 随 着 车 辆 移动 ， 目 标 
对 象 (其 他 车 辆 、 行 人 等 ) 也 在 运动 。 这 使 得 智能 摄像 机 在 汽车 应 用 中 非常 具有 
挑战 性 。 然 而 ， 一 些 智能 摄像 机 已 经 应 用 于 汽车 市 场 。 这 里 引用 一 个 例子 58 ， 一 
些 品 牌 型 号 汽车 已 经 安装 有 智能 摄像 机 ， 能 够 进行 监测 和 检测 车 道 偏 离 。 随 着 智能 
摄像 机 技术 的 不 断 发 展 ， 我 们 希望 看 到 更 多 智能 摄像 机 在 汽车 上 的 应 用 ， 例 如 自 适 
应 巡航 控制 、 监 控 育 点 、 辅 助 停车 和 防 撞 预警 (辅助 作用 ) 。 





























20.3 市 场 发 展 


智能 摄像 机 不 仅 吸引 了 科学 家 和 专业 人 员 的 兴趣 ， 而 且 一 些 制 造 商 和 行业 将 其 
名 称 作 为 一 个 营销 工具 来 引导 和 推动 新 的 产品 。 在 过 去 的 十 年 中 ， 智 能 摄像 机 市 场 
平均 增长 率 为 13% ，2000 年 达到 最 高 营业 额 ， 增 长 率 为 28% (参见 第 19 章 的 更 
多 细节 )。 特 别 是 如 果 以 上 的 研究 问题 得 到 解决 ， 且 科研 成 果 在 某 种 应 用 中 体现 了 
有 效 的 价值 ， 智 能 摄像 机 的 未 来 市 场 将 很 有 可 能 成 倍增 长 。 智 能 摄像 机 的 典型 应 用 
市 场 将 会 是 汽车 和 生产 行业 ， 安 全 应 用 和 和 军事。 其 他 新 兴 市 场 可 能 会 包括 许多 如 人 
机 交互 、 玩 具 、 视 频 游戏 、 娱 乐 、 医 疗 、 保 健 和 生活 辅助 等 。 

















20.4 ”展望 


本 章 旨 在 使 读者 能 够 参与 到 未 来 智能 摄像 机 的 发 展 中 。 而 所 有 其 他 的 章节 阐述 
了 智能 摄像 机 的 研究 现状 和 研究 成 果 。 这 些 章 节 在 不 同 层面 上 概述 了 本 书 的 主题 。 
在 这 一 章 ， 我 们 从 科研 、 应 用 和 市 场 的 角度 列 出 了 智能 摄像 机 发 展 的 潜力 ， 则 在 强 
调 有 关 它 的 进一步 研究 的 可 行 性 。 我 的 目的 是 呈现 一 点 儿 自 己 的 想法 、 一 些 未 解决 
的 研究 问题 、 智 能 摄像 机 的 应 用 潜力 和 未 来 的 市 场 方 向 。 也 希望 能 够 支持 有 志 于 智 
能 摄像 机 研究 的 科学 家 和 专业 人 员 去 探索 更 有 吸引 力 的 领域 ， 从 而 为 开发 未 来 的 智 
能 摄像 机 做 出 更 多 的 贡献 。 


1 


10. 


11. 


12. 


13. 


14. 


15. 


16. 


参考 文献 


. T. Aach and A. Kaup, in Signal Processing: Image Communication. Bayesian Algorithms 
for Change Detection in Image Sequences Using Markov Random Fields, vol. 7, no. 2, 
pp. 147-160, (1995) 

. T. Aach, A. Kaup and R. Mester, in Signal Processing. Statistical Model-Based Change 
Detection in Moving Video, vol. 31, pp. 165-180, (1993) 

. A. Abbo, R. Kleihorst, V. Choudhary and L. Sevat, in Lecture Notes in Computer Science, 
Springer. PATMOS2004, Santorini, Greece. Power Consumption of Performance-Scaled 
SIMD Processors, pp. 532-540, (2004) 

. A. Abbo and R. Kleihorst, in ACIVS2002, Gent, Belgium. A Programmable Smart Camera 
Architecture, (2002) 

. B. Abidi, A. Koschan, S. Kang, M. Mitckes and M. Abidi, in Multisensors Surveillance Sys- 
tems: The Fusion Perspective. Automatic Target Acquisition and Tracking with Cooperative 
Static and PTZ Video Cameras, pp. 43—59, (2003) 

. L. Agapito, E. Hayman and I. Reid, in /nternational Journal of Computer Vision. Self- 
calibration of Rotating and Zooming Cameras, vol. 45, no. 2, pp. 1573-1405, (2001) 

. M. Ahmed and A. Farag, in /EEE Transactions on Image Processing. Nonmetric Calibration 
of Camera Lens Distortion: Differential Methods and Robust Estimation, vol. 14, no. 8, 
pp. 1215-1230, (2005) 

. K. Aizawa, H. Ohno, T. Hamamoto, M. Hatori and J. Yamazaki, in Proceedings of Interna- 
tional Conference on Image Processing. A Novel Image Sensor for Video Compression, vol. 
3, pp. 591—595, (1994) 

. M. Akdere, U. Centintemel, D. Crispell, J. Jannotti, J. Mao and G. Taubin, in Lecture Notes 

in Computer Science, Springer. Proc. 2nd Intl. Conf. on Geosensor Networks, Boston, USA. 

Data-Centric Visual Sensor Networks for 3D Sensing, pp. 131-150, (2006) 

L. Albani, P. Chiesa, D. Covi, G. Pedegani, A. Sartori and M. Vatteroni, in Proceed- 

ings of the 28th European Solid-State Circuits Conference. VISoc: A Smart Camera SoC, 

pp. 367—370, (2002) 

Y. Aloimonos, I. Weiss and A. Bandyopadhyay, in Proceedings of the First International 

Conference on Computer Vision (ICCV). Active Vision, pp. 35-54, (1987) 

Altera Corporation, in Datasheet SII5v1-3.1, SII5v2-3.1. Stratix I Device Handbook, 

(2007) 

Altera Corporation, in Datasheet. Nios II Processor Reference Handbook, (2009) 

K. Ambrosch, W. Kubinger, M. Humenberger and A. Steininger, in EURASIP Journal 

on Embedded Systems. Flexible Hardware-Based Stereo Matching, Article ID 386059, 12 

pp. (2009) 

American Society of Photogrammetry in J.C. McGlone (ed.), ASPRS. Manual of Photogram- 

metry, (2004) 

F. Andoh, H. Shimamoto and Y. Fujita, in IEEE Transactions on Electron Devices. A Digital 

Pixel Image Sensor for Real-time Readout, vol. 47, no. 11, pp. 2123-2127, (2000) 


17. 


18. 


19. 


20. 


21. 


22. 


295 


24. 


25. 
26. 


27. 


28. 


29: 


30. 


3L. 


36. 


296 智能 摄像 机 








F. Andoh, K. Taketoshi, J. Yamazaki, M. Sugawara, Y. Fujita, K. Mitani, Y. Matuzawa, 
K. Miyata and S. Araki, in 37th ISSCC IEEE International Solid-State Circuits Conference, 
1990. Digest of Technical Papers. .. A 250000-pixel Image Sensor with FET Amplification 
at Each Pixel for High-speed Television Cameras, pp. 212—213, (1990) 

A. Andreou and K. Boahen, in Chapter 8 in M. Ismail et al. Analog VLSI Signal and Infor- 
mation Processing, Mc Graw-Hill, Neural Information Processing II, pp. 358-413, (1994) 
M. E. Antone and S. Teller, in Proceedings of the International Conference on Com- 
puter Vision and Pattern Recognition (CVPR), Hilton Head Island, SC, USA. Auto- 
matic Recovery of Relative Camera Rotations for Urban Scenes, vol. 2, pp. 282-289, 
(2000) 

S. Apewokin, B. Valentine, R. Bales, L. Wills and S. Wills, in Proceedings of 2nd IEEE 
Workshop on Embedded Computer Vision (ECVW), CVPR 2008, Fort Collins, CO, USA. 
Tracking Multiple Pedestrians in Real-time Using Kinematics, pp. 1—6, (2008) 

C. Arth, H. Bischof and C. Leistner, in Proceedings IEEE Conference on Computer Vision 
and Pattern Recognition (CVPR), IEEE Workshop on Embedded Computer Vision (ECVW), 
New York, USA. TRICam — an Embedded Platform for Remote Traffic Surveillance, P. 125, 
(2006) 

C. Arth, C. Leistner and H. Bischof, in First ACM/IEEE International Conference on Dis- 
tributed Smart Cameras. Object Reacquisition and Tracking in Large-scale Smart Camera 
Networks, pp. 156-163, (2007) 

C. Arth, F. Limberger and H. Bischof, in EEE International Conference on Computer Vision 
and Pattern Recognition (CVPR '07). Real-time License Plate Recognition on an Embedded 
DSP-platform, pp. 1-8, (2007) 

M. Arulampalm and S. Maskell and N. Gordon and T. ClaPages, in IEEE Transactions 
on Signal Processing. A Tutorial on Particle Filters for Online Nonlinear Non-Gaussian 
Bayesian Tracking, vol. 50, no. 2, pp. 174—188, (2002) 

Asentics GmbH & Co KG in Datasheet. Datenblatt Intelligenter Zeilensensor, (2003) 

U. ASSmann, M. Aksit and A. Rensink, in Springer Lecture Notes in Computer Science. 
Model Driven Architecture: European MDA Workshops — Foundations and Applications, 
(2005) 

C. Atkinson and T. Kuhne, in JEEE Software. Model-Driven Development: A Metamodeling 
Foundation, vol. 20, no. 5 pp. 36-41, (2003) 

D. Aubert, in Proceeding of 10th International Conference on Image Analysis and Process- 
ing, Venice, Italy. Passengers Queue Measurement, pp. 1132-1135, (1999) 

Automated Imaging Association, in 2008 AIA Annual Machine Vision Market Study. Ann 
Arbor MI, USA. AIA Annual Machine Vision Market Study, (2008) 

Automated Imaging Association. Article published in April 2008 at the Website of Process 
and Control Today. Information Accessed in January 2009. New Machine Vision Market 
Study and Forecasts for 2007 Through 2012, (2008) 

Automated Imaging Association. Information Published at the Website of GenICam and 
accessed in January 2009. The EMVA GenICam standard, (2009) 


. Automated Imaging Association. Information Published at the Website of the Machine 


Vision Online and accessed in January 2009. GigE Vision Standard, (2009) 


. Automated Imaging Association. Information Published at the Website of MVTec and 


accessed in January 2009. Halcon: The Power of Machine Vision, (2009) 


. Automated Imaging Association. Information Published at the Website of Machine Vision 


of UK and Accessed in January 2009. A Brief History of and An Introduction to Machine 
Vision, (2009) 


. S. Avidan, in JEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI. Sup- 


port Vector Tracking, vol. 26, no. 8, pp. 1064-1072, (2004) 

M. Azadmehr, J.P. Abrahamsen and P. Hafliger, in IEEE International Symposium on Cir- 
cuits and Systems, ISCAS (2005). A Foveated AER Imager Chip [Address Event Represen- 
tation], vol. 3, pp. 2751-2754, (2005) 





3T. 


38. 


39. 


40. 


41. 


42. 


43. 
44. 


45. 


46. 


4T. 


48. 


49. 
50. 


5]. 
52. 


53. 


54. 


55. 


56. 


51. 


58. 


297 





P. Babenko and M. Shah, in Journal of Real-Time Image Processing. MinGPU: A Minimum 
GPU Library for Computer Vision, vol. 3, no. 4, pp. 255—268, (2008) 

N. I. Badler, in Proceedings of the 2nd International Joint Conference on Pat- 
tern Recognition. Three Dimensional Motion from Two-dimensional Picture Sequences, 
pp. 157-161,(1974) 

J. Badri, C. Tilmant, J. M. Lavest, Q. C. Phan and P. Sayd, in Proceedings of SCIA 2007, 
LNCS 4522. Camera to Camera Mapping for Hybrid Pan-Tilt-Zoom Sensors Calibration, 
pp. 132-141, (2007) 

R. Bajcsy, in Proceedings of the IEEE Special no. on Computer Vision. Active Perception, 
vol. 76 no. 8, pp. 996-1005, (1988) 

S. Baker, R. Gross, T. Ishikawa, I. Matthews and R. Baker, in Proceedings of International 
Joint Conference on Artificial Intelligence. Lucas-Kanade 20 Years on: a Unifying Frame- 
work: Part 2, (2003) 

M. Baldauf, S. Dustdar and F. Rosenberg, in International Journal of Ad Hoc and Ubiquitous 
Computing. A Survey on Context-Aware systems, vol. 2, no. 4, pp. 263-277 (2004) 

D.H. Ballard, in Artificial Intelligence Journal. Animate Vision, vol. 48, pp. 57-86, (1991) 
D. Bannach, O. Amft and P. Lukowicz, in JEEE Pervasive Computing. Rapid Prototyping of 
Activity Recognition Applications, vol. 7, no. 2, pp. 22-31, (2008) 

Y. Bar Shalom and T. Fortmann, in Academic Press, San Diego, California, USA. Tracking 
and Data Association, (1988) 

S. T. Barnard, in Artificial Intelligence Elsevier Science B. V.. Interpreting Perspective 
Images, vol. 21, no. 4, pp. 435-462, (1983) 

M. Barth and C. Barrows, in IEEE International Conference on Intelligent Robots and Sys- 
tems. Fast Panoramic Imaging System and Intelligent Imaging Technique for Mobile Robots, 
vol. 2, pp. 626-633, (1996) 

F. Bashir and F. Porikli, in Proceedings IEEE Conference on Computer Vision and Pattern 
Recognition (CVPR), Workshop on Performance Evaluation of Tracking and Surveillance 
(PETS), New York, USA. Performance Evaluation of Object Detection and Tracking Sys- 
tems, (2006) 

Basler AG, in User Manual. Basler Sprint User's Manual for Color Cameras, (2008) 

D. Bauer, A.N. Belbachir, N. Donath, G. Gritsch, B. Kohn, M. Litzenberger, 
C. Posch, P.Schón and S. Schraml, in EURASIP Journal on Embedded Systems, 
doi:10.1155/2007/82174. Embedded Vehicle Speed Estimation System Using an Asyn- 
chronous Temporal Contrast Vision Sensor, Article ID 82174, 12 pp., (2007) 

B.E. Bayer, US Patent 3971065. Color Imaging Array, (1976) 

S. Becker and M.V. Bove, in SPIE Symposium on Electronic Imaging. San Jose, USA. Semi- 
automatic 3-D Model Extraction from Uncalibrated 2-D Camera Views, pp. 447—461, (1995) 
M. Beising, in Presentation at Industrial Vision Days, Vision Trade Fair. Web-Inspection 
mit dem Smart Camera System, (2007) 

A.N. Belbachir, in Vdm Verlag Dr. Müller. On-Board Processing for Infrared Observatories: 
Theory and Application, (2008) 

A.N. Belbachir, M. Hofstatter, M. Litzenberger and P. Schon, in Journal of Measurement Sci- 
ence and Technology. High-precision Shape Representation Using a Neuromorphic Imaging 
Sensor with Synchronous Address-event Communication Interface, (2009) 

A.N. Belbachir, M. Litzenberger, C. Posch and P. Schón, in Proceedings of the IEEE Inter- 
national Symposium on Industrial Electronics, ISIE2007. Real-Time Vision Using a Smart 
Sensor System, pp. 1968-1973, (2007) 

S. Bell, B. Edwards, J. Amann et al., in Digest of Technical Papers Solid-state circuits 
conference, ISSCC (2008). TILE64™ Processor: A 64-core SoC with Mesh Interconnect, 
pp. 88-598, (2008) 

A. Bermak, in IEEE International Symposium on Circuits and Systems, ISCAS (2002). 
A CMOS Imager with PFM/PWM Based Analog-to-digital Converter, vol. 4, pp. 53-56, 
(2002) 


59. 


60. 


61. 


62. 


63. 


64. 


65. 


66. 


67. 


68. 


69. 


70. 


71. 


12. 


73. 


74. 


75. 


76. 


EUR 


298 智能 摄像 机 


A. Bermak, in Proceedings of the IEEE 2005 Custom Integrated Circuits Conference. 
An 8/4-bit Reconfigurable Digital Pixel Array with On-chip Non-Uniform Quantizer, 
pp. 223-226, (2005) 

T.M. Bernard, B.Y. Zavidovique and F.J. Devos, in IEEE Journal of Solid-State Circuits. A 
Programmable Artificial Retina, vol. 28, no. 7, pp. 789-798, (1993) 

I. Biederman, in Perceptual Organization, Hillsdale, NJ: Lawrence Erlbaum Associates. On 
the semantics of a Glance at a Scene, pp. 213—253, (1981) 

M. Bigas, E. Cabruja, J. Forest and J. Salvi, in Microelectronics Journal, Elsevier 2006. 
Review of CMOS Image Sensors, vol. 37, pp. 433-451, (2006) 

S. Birchfield and C. Tomasi, in International Journal of Computer Vision. Depth Disconti- 
nuities by Pixel-to-Pixel Stereo, vol. 35, no. 3, pp. 269-293, (1996) 

J. Black and T. Ellis and P. Rosin, in Joint IEEE Int. Workshop on Visual Surveillance 
and Performance Evaluation of Tracking and Surveillance (VS-PETS). A Novel Method 
for Video Tracking Performance Evaluation, pp. 125-132, (2003) 

K.A. Boahen, in IEEE Transactions on Circuits and Systems II: Analog and Digital Sig- 
nal Processing. Point-to-point Connectivity Between Neuromorphic Chips Using Address 
Events, vol. 47, no. 5, pp. 416-434, (2000) 

K.A. Boahen, in IEEE Transactions on Circuits and Systems I: Regular Papers. A Burst- 
mode Word-serial Address-event Link-i: Transmitter Design, vol. 51, no. 7, pp. 1269-1280, 
(2004) 

E. Bodenstorfer, J. Fürtler, J. Brodersen, K.J. Mayer, C. Eckel, K. Gravogl and H. Nacht- 
nebel, in Proceedings of the Society of Photo-Optical Instrumentation Engineers (SPIE), 
N. Kehtarnavaz and M.F. Carlsohn (eds.) Real-Time Image Processing 2007. High-speed 
Line-scan Camera with Digital Time Delay Integration, vol. 6496, pp. I-4960, (2007) 

L. Bombini, P. Cerri, P. Grisleri, S. Scaffardi and P. Zani, in Proc. IEEE Intl. Conf. on Intel- 
ligent Transportation Systems 2006, Toronto, Canada. ^n Evaluation of Monocular Image 
Stabilization Algorithms for Automotive Applications, pp. 1562-1567, (2006) 

B. Bose and E. Grimson, in Proceedings of the Joint IEEE International Workshop on Visual 
Surveillance and Performance Evaluation of Tracking and Surveillance (VS-PETS). Ground 
Plane Rectification by Tracking Moving Objects, (2003) 

F. Boussaid, A. Bermak and A. Bouzerdoum, in Transactions on Consumer Electronics, 
IEEE. ^n Ultra-low Power Operating Technique for Mega-pixels Current-mediated CMOS 
Imagers, vol. 50, no. 1, pp. 46-53, (2004) 

F. Boussaid, C. Shoushun and A. Bermak, in /nternational Conference on Design and Test of 
Integrated Systems in Nanoscale Technology DTIS(2006). A Novel Scalable Spiking Pixel 
Architecture for Deep Submicron CMOS Technologies, pp. 131—135, (2006) 

A. Bouzerdoum, A. Moini, A. Yokovleff and X.T. Nguyen, in JEEE International Con- 
ference on Systems, Man, and Cybernetics, 1994. A Smart Visual Micro-sensor, vol. 1, 
pp. 276-279, (1994) 

Y. Boykov, O. Veksler and R. Zabih, in JEEE Transactions on Pattern Analysis and 
Machine Intelligence. Fast Approximate Energy Minimization via Graph Cuts, vol. 23, 
pp. 1222-1239, (2001) 

G. Bradski and A. Kaehler, in O'Reilly Media. Learning OpenCV: Computer Vision with 
the OpenCV Library, (2008) 

V. Brajovic and T. Kanade, in IEEE Transactions on Robotics and Automation, A VLSI Sort- 
ing Image Sensor: Global Massively Parallel Intensity-to-Time Processing for Low-latency 
Adaptive Vision, vol. 15, issue 1, pp. 67-75, (1999) 

M. Bramberger, PhD Thesis at Graz University, Austria. Distributed Task Allocation in 
Clusters of Embedded Smart Cameras, (2005) 

M. Bramberger, J. Brunner, B. Rinner and H. Schwabach, in Proceedings of the 10th 
IEEE Real-Time and Embedded Technology and Applications Symposium (RTAS). Real-time 
Video Analysis on an Embedded Smart Camera for Traffic Surveillance, pp. 174-181, (2004) 





78 


19. 


80. 


81. 


82. 


83. 


84. 


85. 


86. 


87. 


88. 


89. 


90. 


91. 


92. 


93. 


94. 


95: 


96. 
97. 





M. Bramberger, A. Doblander, A. Maier, B. Rinner and H. Schwabach, in /EEE Com- 
puter. Distributed Embedded Smart Cameras for Surveillance Applications, vol. 39, no. 2, 
pp. 68-75, (2006) 

C. Brauer-Burchardt, in Proceedings of the 24th Pattern Recognition Symposium (DAGM). 
A Simple New Method for Precise Lens Distortion Correction of Low Cost Camera Systems, 
pp. 570-577, (2004) 

B. Brillault-O’ Mahony, in Journal of Computer Vision, Graphics and Image Processing. 
New Method for Vanishing Point Detection, vol. 54, no. 2, pp. 289-300, (1991) 

G. Brodin et al., in Proceedings of the Workshop for pattern recognition in practice 1980. 
Computer Vision Systems: a Practical Approach, pp. 289—298, (1980) 

A. Broggi, A. Cappalunga, C. Caraffi, S. Cattani, S. Ghidoni, P. Grisleri, P.P. Porta, M. 
Posterli and P. Zani, in /EEE Trans. on Intelligent Transportation Systems. TerraMax Vision 
at the Urban Challenge 2007, (2008) 

A. Broggi, C. Caraffi, P.P. Porta and P. Zani, in Proc. IEEE Intl. Conf. on Intelligent Trans- 
portation Systems 2006, Toronto, Canada. The Single Frame Stereo Vision System for 
Reliable Obstacle Detection used during the 2005 Darpa Grand Challenge on TerraMax, 
pp. 745-752, (2006) 

A. Broggi, P. Medici and P.P. Porta, in EURASIP Journal on Embedded Systems — Special no. 
on Embedded Systems for Intelligent Vehicles. StereoBox: a Robust and Efficient Solution 
for Automotive Short Range Obstacle Detection, ISSN 1687-3955, (2007) 

T. Broida, S. Chandrashekhar and R. Chellapa, in /EEE Transactions on Aerospacial Elec- 
tronic Systems. Recursive Techniques for the Estimation of 3-D Translation and Rotation 
Parameters from Noisy Image Sequences, vol. 26, pp. 639—656, (1990) 

T. Broida and R. Chellapa, in IEEE Transactions on Pattern Analysis and Machine Intelli- 
gence. Estimation of Object Motion Parameters from Noisy Images, vol. 8, no. 1, pp. 90—99, 
(1986) 

G.J. Brostow and R. Cipolla, in Proceedings of the IEEE Conference on Computer Vision 
and Pattern Recognition (CVPR2006). Unsupervised Bayesian Detection of Independent 
Motion in Crowds, vol. 1, pp. 594—601, (2006) 

D.C. Brown, in Proceedings of the Symposium on Close-Range Photogrammetry, Urbana, 
Illinois, USA. Close-range Camera Calibration, pp. 855—866, (1971) 

M.Z. Brown, Burschka and G.D. Hager, in IEEE Transactions on Pattern Analysis and 
Machine Intelligence. Advances in Computational Stereo, vol. 25, no. 8, pp. 993-1008, 
(2003) 

F. Buechli, E. Heeb and K. Knop, in Proceedings of SPIE — The International Society for 
Optical Engineering, 1985. Low Cost Smart Camera, pp. 278—283, (1985) 

H. Buxton, in Generative Model Based Vision Workshop. Generative Models for Learning 
and Understanding Dynamic Scene Activity, pp. 71—81, (2002) 

J. Canny, in IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI). A 
Computational Approach to Edge Detection, vol .8, no. 6, pp. 679-698, (1986) 

B. Cardani, in IEEE Control System Magazine. Optical Image Stabilization for Digital Cam- 
eras, vol. 26, no. 2, pp. 21-22, (2006) 

R. Carmona, F. Jimenez-Garrido, R. Domfnguez-Castro, S. Espejo and A. Rodriguez- 
Vazquez, in Proceedings on Design, Automation and Test in Europe Conference and Exhi- 
bition (2002). Bio-inspired Analog VLSI Design Realizes Programmable Complex Spatio- 
temporal Dynamics on a Single Chip, pp. 362-366, (2002) 

B. Caprile and V. Torre, in International Journal of Computer Vision (IJCV). Using Vanish- 
ing Points for Camera Calibration, vol. 4, pp. 127-140, (1990) 

K.R. Castleman, in Prentice-Hall Inc. Digital Image Processing, (1996) 

A. Cavallaro and T. Ebrahimi, in EURASIP Journal on Applied Signal Processing. Interac- 
tion Between High-Level and Low-Level Image Analysis for Semantic Video Object Extrac- 
tion, vol. 6, pp. 786—797, (2004) 


299 


300 智能 摄像 机 





98. 


99. 


100. 


101. 


102. 


103. 


104. 


105. 


106. 


107. 


108. 


109. 


110. 


111. 


112. 


113. 


114. 


115. 


116. 


A. Cavallaro and T. Ebrahimi, in Proceedings of IEEE International Symposium on Circuits 
and Systems (ISCAS) Sydney, Australia. Change Detection Based on Color Edges, vol. 2, 
pp. 141-144, (2001) 

A. Cavallaro and T. Ebrahimi, in Proceedings of SPIE Electronic Imaging - Visual Commu- 
nications and Image Processing, San Jose, California, USA. Video Object Extraction Based 
on Adaptive Background and Statistical Change Detection, pp. 465—475, (2001) 

A. Cavallaro and F. Ziliani, in Multimedia Video-Based Surveillance Systems, Kluwer 
Academic Publishers, Boston, USA. Image Analysis for Advanced Video Surveillance, 
pp. 57-67, (2000) 

G.L. Cembrano, A. Rodriguez-Vazquez, R.C. Galan, F. Jimenez-Garrido, S. Espejo and 
R. Dominguez-Castro, in IEEE Journal of Solid-State Circuits. A 1000 fps at 128 x 128 
Vision Processor with 8-bit Digitized I/O, vol. 39, issue 7, pp. 1044-1055, (2004) 

V. Cevher, A. Sankaranarayanan, J. McClellan and R. Chellapa, in IEEE Transactions on 
Multimedia. Target Tracking Using a Joint Acoustic Video System, vol. 9, pp. 715-727, 
(2007) 

P. Chalimbaud and F. Berry, in EURASIP Journal on Embedded Systems. Embed- 
ded Active Vision System Based on a FPGA Architecture. Article ID 35010, 12 
pp. doi:10.1155/2007/35010, (2007) 

P. Chalimbaud, F. Marmoiton and F. Berry, in International Journal of Robotics Research. 
Towards an Embedded Visuo-Inertial Smart Sensor, vol. 26, no. 6, pp. 537—546, (2007) 

M. Chan, D. Estéve, C. Escriba and E. Campo, in Journal of Computer Programs in 
Biomedicine. A Review of Smart Homes: Present State and Future Challenges, vol. 91, 
pp. 55-81, (2008) 

A.B. Chan, Z.J. Liang and N. Vaconcelos, in Proceedings of the IEEE Conference on Com- 
puter Vision and Pattern Recognition (CVPR2008), Anchorage, AK, USA. Privacy Pre- 
serving Crowd Monitoring: Counting People without People Models or Tracking, pp. 1-7, 
(2008) 

P.W. Chen, P. Ahammad, C. Boyer, S. Huang, L. Lin, E.J. Lobaton, M.L. Meingast, S. Oh, 
S. Wang, P. Yan, A. Yang, C. Yeo, L. Chang, J. D. Tygar and S.S. Sastry, in Third 
ACM/IEEE International Conference on Distributed Smart Cameras (ICDSC). CITRIC: A 
Low-bandwidth Wireless Camera Network Platform, pp. 1—10, (2008) 

Y. Chen, Y. Rui and T. Huang, in Proceedings of IEEE Conference on Computer Vision 
and Pattern Recognition (CVPR) 2000, Hilton Head, SC, USA. JPDAF Based HMM for 
Real-time Contour Tracking, pp. 543—550, (2000) 

M. Chiu, R. Depommier and T. Spindler, in Proceedings of International Conference on 
Pattern Recognition, Cambridge, UK. An Embedded Real-time Vision System for 24-Hour 
Indoor/Outdoor Car Counting Applications, pp. 338—341, (2004) 

M. Clapp and R. Etienne Cummings, in IEEE Sensors Journal. Dual Pixel Array for Imag- 
ing, Motion Detection and Centroid Tracking, vol. 2, no. 6, pp. 529—548, (2002) 

T. Y.W. Choi, B.E. Shi and K.A. Boahen, in JEEE Transactions on Circuits and Systems I: 
Regular Papers. An ON-OFF Orientation Selective Address Event Representation Image 
Transceiver Chip, vol. 51, no. 2, pp. 342-353, (2004) 

B. Choubey, S. Aoyoma, S. Otim, D. Joseph and S. Collins, in JEEE Sensors Journal. An 
Electronic Calibration Scheme for Logarithmic CMOS Pixels, vol. 6, no. 4, pp. 950-956, 
(2006) 

Chromasens GmbH, in Chromasens GmbH Press. Aleos Modular Camera System User 
Manual, (2007) 

R. Cipolla and E. Boyer, in Proceedings of the APR Workshop on Machine Vision Applica- 
tions, Chiba, Japan. 3D Model Acquisition from Uncalibrated Images, pp. 559—568, (1998) 
T.A. Clarke and J.G. Fryer, in Photogrammetric Record. The Development of Camera Cali- 
bration Methods and Models, vol. 16, no. 91, pp. 51—66, (1998) 

Cognex Corporation, in Cognex Corporation Press. Installation and User Guide for DVT 
Vision Sensors, (2006) 


参考 文献 





117. 


118. 


119. 


120. 


121. 


122. 


123. 


124. 


125. 


126. 


127. 


128. 


129. 


R. Collins, X. Zhou and S.K. Teh, in IEEE International Workshop on Performance Evalu- 
ation of Tracking and Surveillance (PETS 2005), Beijing, China. An Open Source Tracking 
Testbed and Evaluation Website, (2005) 

R.T. Collins and R. S.Weiss, in Proceedings of the 3rd International conference on Com- 
puter Vision (ICCV). Vanishing Point Calculation as Statistical Inference on the Unit Sphere, 
pp. 400-403, (1990) 

R. Collins, A. Lipton, H. Fujiyoshi and T. Kanade, in Proceedings of the IEEE. Algorithms 
for Cooperative Multisensor Surveillance, vol. 89, issue 10, pp. 1456-1477, (2001) 

D. Comaniciu, V. Ramesh and P. Meer, in IEEE Transactions on Pattern Analysis and 
Machine Intelligence. Kernel-based Object Tracking, vol. 25, pp. 564—575, (2003) 
Commission Internationale de L' Eclairage, in CIE. CIE 1988 2 Degree Spectral Luminous 
Efficiency Function for Photopic Vision, (1990) 

J. Conradt, P. Lichtsteiner, R. Berner, T. Delbruck, RJ. Douglas and M. Cook, in Live Demon- 
stration Session at Neural Information Processing Systems. A Pencil Balancing Robot Using 
Only Spike-based Visual Input, (2008) 

T. Cootes, C. Taylor, D. Cooper and J. Graham, in Computer Vision and Image Understand- 
ing. Active Shape Models - Their Training and Application, vol. 61, no. 1, pp. 38—59, (1995) 
K. Cornelis, M. Pollefeys and L. Van Gool, in A. Heyden (ed.) Proceedings of the 7th Euro- 
pean Conference on Computer Vision (ECCV), vol. Springer LNCS 2351. Lens Distortion 
Recovery for Accurate Sequential Structure and Motion Recovery, pp. 186—200, (2002) 

R. Costantini, G. Ramponi, J. Bracamonte, B. Piller, M. Ansorge and F. Pellandini, in Pro- 
ceedings of SPIE, the International Society for Optical Engineering, Electronic Imaging 
Conference, San Jose, CA, USA. Countering Illumination Variations in a Video Surveillance 
Environment, pp. 85-97, (2001) 

J. Costas-Santos, T. Serrano-Gotarredona, R. Serrano-Gotarredona and B. Linares-Barranco, 
in IEEE Transactions on Circuits and Systems I: Regular Papers. A Spatial Contrast Retina 
with On-chip Calibration for Neuromorphic Spike-based AER Vision Systems, vol. 54, no. 
7, pp. 1444-1458, (2007) 

A. Criminisi, I. Reid and A. Zisserman, in International Journal of Computer Vision. Single 
View Metrology, vol. 40, no. 2, pp. 123-148, (2000) 

D. Crispell, G. Taubin and J. Jannotti, in Proc. 6th Workshop on Omnidirectional Vision, 
Camera Networks, and Non-classical Cameras (OMNIVIS 2005). Image Based Routing for 
Image Based Rendering, (2005) 

C. Cristianini and J. Shawe-Taylor, in Cambridge University Press. An Introduction to Sup- 
port Vector Machines and Other Kernel-based Learning Methods, (2000) 


. C. Cuadrado, A. Zuloaga, J.L. Martin, J. Laizaro and J. Jimenez, in Proceedings of the IEEE 


32nd Annual Conference on Industrial Electronics. Real-Time Stereo Vision Processing Sys- 
tem in a FPGA, pp. 3455-3460, (2006) 


. R. Cucchiara, A. Prati, R. Vezzani, L. Benini, E. Farella and P. Zappi, in Journal of Ubiq- 


uitous Computing and Intelligence. Using a Wireless Sensor Network to Enhance Video 
Surveillance, vol. 1, pp. 1-11, (2006) 


. E. Culurciello and A.G. Andreou, in Electronics Letters. 16x16 Pixel Silicon on Sapphire 


CMOS Digital Pixel Photosensor Array, vol. 40, no. 1, pp. 66-68, (2004) 


. E. Culurciello, R. Etienne-Cummings and K.A. Boahen, in JEEE Journal of Solid-State Cir- 


cuits. A Biomorphic Digital Image Sensor, vol. 38, no. 2, pp. 281—294, (2003) 


. N. Dalal and B. Triggs, in Conference on Computer Vision and Pattern Recognition (CVPR). 


Histograms of Oriented Gradients for Human Detection, pp. 886-893, (2005) 


. Dalsa Corporation. User Manual. Piranha Color Trilinear Camera User Manual, 


(2007) 


. Dalsa Corporation. User Manual. Eclipse EC-11-xxx40 Advanced Line Scan Cameras 


User's Manual, (2002) 


. E. R. Davies, in Morgan Kaufmann Publishers Inc.. Machine vision: Theory, Algorithms, 


Practicalities, (2004) 


301 


302 智能 摄像 机 





138. 


139. 


140. 


141. 


142. 


143. 


144. 


145. 


146. 


147. 


148. 


149. 


150. 


151. 


152. 


153. 


154. 


155. 


156. 


T. Delbruck, in IEEE Transactions on Neural Networks, Silicon Retina with Correlation- 
based, Velocity-tuned Pixels, pp. 529—541, (1993) 

T. Delbruck, in Proceedings of Intl. Symposium on Secure-Life Electronics, Advanced Elec- 
tronics for Quality Life and Society, University of Tokyo, Tokyo, Japan. Frame-free Dynamic 
Digital Vision, pp. 21-26, (2008) 

T. Delbruck and P. Lichtsteiner, in /EEE International Symposium on Circuits and Systems, 
ISCAS2007, New Orleans, USA. Fast Sensory Motor Control Based on Event-based Hybrid 
Neuromorphic Procedural System, pp. 845-848, (2007) 

F. Devernay and O. Faugeras, in Machine Vision and Applications. Straight Lines have to be 
Straight, vol. 13, no. 1, pp. 14—24, (2001) 

A. K. Dey, D. Salber and G. D. Abowd. in Human-Computer Interaction (HCI) Journal. 
A Conceptual Framework and a Toolkit for Supporting the Rapid Prototyping of Context- 
Aware Applications, vol. 16, no. 2-4, pp. 97-166, (2001) 

F. Dias Real, P. Chalimbaud, F. Berry, F. Marmoiton and J. Serot, in Cognitive Systems with 
Interactive Sensors (COGIS). Embedded Early Vision Systems: Implementation Proposal 
and Hardware Architecture, (2006) 

F Dias Real, F. Berry, F. Marmoiton and J. Serot, in International Conference on Distributed 
Smart Cameras (ICDSC). Hardware, Design and Implementation Issues on a FPGA Based 
Smart Camera, (2007) 

A. Dickinson, B. Ackland, E.S. Eid, D. Inglis and E.R. Fossum, in 42nd IEEE Interna- 
tional Solid-State Circuits Conference (ISSCC 1995) Digest of Technical Papers. A 256x256 
CMOS Active Pixel Image Sensor with Motion Detection, pp. 226—227, (1995) 

E.D. Dickmans and B.D. Mysliwetz, in IEEE Trans. on Pattern Analysis and Machine Intel- 
ligence. Recursive 3-D Road and Relative Ego-State Recognition, vol. 14, pp. 199-213, 
(1992) 

J. Doge, G. Schonfelder, G.T. Streil and A. Konig, in IEEE Transactions on Circuits and 
Systems II: Analog and Digital Signal Processing. An HDR CMOS Image Sensor with 
Spiking Pixels, Pixel-level ADC, and Linear Characteristics, vol. 49, no. 2, pp. 155-158, 
(2002) 

R. Dominguez Castro, S. Espejo, A. Rodriguez-Vazquez, R.A. Carmona, P. Foldesy, 
A. Zarandy, P. Szolgay, T. Sziranyi and T. Roska, in /EEE Journal of Solid-State Circuits. A 
0.8-um CMOS Two-dimensional Programmable Mixed-signal Focal-plane Array Processor 
with On-chip Binary Imaging and Instructions Storage, vol. 32, no. 7, pp. 1013-1026, (1997) 
A. Doucet, N. Freitas and N. Gordon, in Sequential Monte Carlo Methods in Practice, New 
York, Springer-Verlag. (2001) 

M. Drobics, in Proceedings of the 2003 Mathematica Developer Conf., Champaign, IL, USA, 
Wolfram Research Inc.. Machine Learning Framework for Mathematica: Creating Under- 
standable Computational Models from Data, (2003) 

P. Dudek and P.J. Hicks, in The 2001 IEEE International Symposium on Circuits and Systems 
(2001) ISCAS. An Analogue SIMD Focal-plane Processor Array, vol. 4, pp. 490—493, (2001) 
P. Dudek and P.J. Hicks, in IEEE Transactions on Circuits and Systems I: Regular Papers. A 
General-purpose Processor-per-pixel Analog SIMD Vision Chip, vol. 52, no. 1, pp. 13-20, 
(2005) 

E. Durucan and T. Ebrahimi, in Proceedings of X European Signal Processing Conference, 
Tampere, Finland. Robust and Illumination Invariant Change Detection Based on Linear 
Dependence for Surveillance Applications, pp. 1041—1044, (2000) 

R.H. Dyck and G.P Weckler, in JEEE Transactions on Electron Devices 1968. Integrated 
Arrays of Silicon Photodetectors for Image Sensing, vol. 15, no. 4, pp. 196-201, (1968) 

R. A. Easton, in Wescon Conference Record, 1996. Smart Digital Cameras for Product Qual- 
ity Inspection, pp. 402-404, (1996) 

C. Eckel, E. Bodenstorfer, H. Nachtnebel, P. Rossler and K.J. Mayer, in Proceedings of the 
Austrochip 2006. Hochgeschindigkeits-Farbzeilenkamera Mit Intelligenter Datenvorverar- 
Beitung, pp. 103-108, (2006) 





157. 


158. 


159. 


160. 


161. 


162. 


163. 


164. 


165. 


166. 


167. 


168. 


169. 


170. 


171. 


172. 


173. 


174. 


175. 


176. 


177. 


G. Edwards, C. Taylor and T. Cootes, in Proceedings of International Conference on Face 
and Gesture Recognition, Nara, Japan. Interpreting Face Images Using Active Appearance 
Models, pp. 300—305, (1998) 

J. E. Eklund, C. Svensson and A. Astrom, in JEEE Transactions on Very Large Scale Integra- 
tion (VLSI) Systems. VLSI Implementation of a Focal Plane Image Processor: a Realization 
of the Near-sensor Image Processing Concept, vol. 4, no. 3, pp. 322-335, (1996) 

A. El Gamal, D.X. Yang and B.A. Fowler, in Proceedings SPIE Vol. 3650. Pixel-level Pro- 
cessing: Why, What, and How?, vol. 3650, pp. 2-13, (1999) 

R. Lorch, “Ibn-al-Haytham,” Encyclopedia Britannica, 06. Aug. 2008 

R. Eshel and Y. Moses, in IEEE International Conference on Computer Vision and Pat- 
tern Recognition (CVPR). Homography Based Multiple Camera Detection and Tracking of 
People in a Dense Crowd, pp. 1-8, (2008) 

J. Espedal, in JEEE Proceedings of the National Aerospace and Electronics Conference, 
1985. MICRONEYE, pp. 1457-1462, (1985) 

S. Espejo, R. Carmona, R. Dominguez-Castro and A. Rodriguez- Vazquez, in International 
Journal of Circuit Theory and Applications. CNN Universal Chip in CMOS Technology, 
vol. 24, pp. 93-111, (1996) 

S. Espejo, R. Dominguez-Castro, G. Linan and A. Rodriguez-Vazquez, in IEEE Interna- 
tional Conference on Electronics, Circuits and Systems. A 64 x 64 CNN Universal Chip 
with Analog and Digital I/O, vol. 1, pp. 203-206, (1998) 

S. Espejo, A. Rodriguez-Vazquez, R. Dominguez-Castro, J.L. Huertas and E. Sanchez- 
Sinencio, in IEEE Journal of Solid-State Circuits. Smart-pixel Cellular Neural Networks 
in Analog Current-mode CMOS Technology, vol. 29, no. 8, pp. 895—905, (1994) 

J. Espina, T. Falck and O. Mülhens, in Body Sensor Networks, G.Z. Yang (ed.), Springer. 
Network Topologies, Communication Protocols and Standards, pp. 145-182, (2006) 

M. Espina and S. Velastin, in IEE Proceedings - Vision, Image, and Signal Processing. Intel- 
ligent Distributed Surveillance Systems: A Review, vol. 152, no. 2, pp. 192-204, (2005) 

R. Etienne-Cummings and J. Van der Spiegel, P. Mueller, in /EEE. Transactions on Cir- 
cuits and Systems I: Fundamental Theory and Applications, A Focal Plane Visual Motion 
Measurement Sensor, pp. 55—66, (1997) 

R. Etienne-Cummings, Z.K. Kalayjian and Donghui Cai, in IEEE Journal of Solid-State 
Circuits. A Programmable Focal-plane MIMD Image Processor Chip, vol. 36, no. 1, 
pp. 64—73, (2001) 

European Machine Vision Association. European Vision Technology Market Statistics 
(2008) Frankfurt/Main, Germany, (2008) 

I. Everts, N. Sebe and G. Jones, in Proceedings of the 14th International Conference on 
Image Analysis and Processing. Cooperative Object Tracking with Multiple PTZ Cameras, 
pp. 323-330, (2007) 

O. Faugeras, in The MIT Press, 4th Edition. Three-Dimensional Computer Vision, A Geo- 
metric Viewpoint, (2001) 

O. Faugeras and Q.T. Luong, in The Geometry of Multiple Images, MIT Press Cambridge 
(2001) 

O.D. Faugeras, Q.T. Luong and S.J. Maybank, in Proceedings of the European Confer- 
ence on Computer Vision. Camera Self-calibration: Theory and Experiments, pp. 321—334, 
(1992) 

J. Fernyhough, A. Cohn and D. Hogg, in Lecture Notes in Computer Science Springer. Gen- 
eration of Semantic Regions from Image Sequences, pp. 475-484, (1996) 

P. Fieguth and D. Terzopoulos, in Proceedings of IEEE Conference on Computer Vision 
and Pattern Recognition, San Juan, Puerto Rico. Color-based Tracking of Heads and Other 
Mobile Objects at Video Frame Rates , pp. 21-27, (1997) 

R. Fisher, in Proceedings Sixth IEEE International Workshop on Performance Evaluation of 
Tracking and Surveillance (PETSO4), Prague, Czech Republic. Surveillance Ground Truth 
Data Set, pp. 1—5, (2004) 


303 


304 智能 摄像 机 





178. 


179. 


180. 


181. 


182. 


183. 


184. 


185. 


186. 


187. 


188. 


189. 


190. 


191. 


192. 


193. 


194. 


195. 


196. 


S. Fleck, F. Busch, P. Biber and W. StraSSer, in Proceedings IEEE Conference on Computer 
Vision and Pattern Recognition (CVPR), IEEE Workshop on Embedded Computer Vision 
(ECVW), New York, USA. 3D Surveillance — A Distributed Network of Smart Cameras for 
Real-Time Tracking and its Visualization in 3D, pp. 83—90, (2006) 

F. Fleuret, J. Berclaz, R. Lengagne and P. Fua, in 6th International Workshop on Visual 
Surveillance. Multiple-People Tracking through Global Optimization, (2006) 

B. Flinchbaugh, in B. Kisacanin and V. Pavlovic and T.S. Huang. (Editors of) Real-Time 
Vision for Human-Computer Interaction. Springer US. Smart Cameras Systems Technology 
Roadmap, pp. 285—297, (2005) 

W. Forstner and S. Ruwiedel, in Herbert Wichmann Verlag. Robust Computer Vision - Qual- 
ity of Vision Algorithms, (1992) 

R. Forchheimer, K. Chen, C. Svensson and A. Odmark, in Journal of VLSI Signal Process- 
ing, 1993. Single-chip Image Sensors with a Digital Processor Array, Natural and Artificial 
Low-Level Seeing Systems, vol. 5, no. 2-3, pp. 121-131, (1993) 

R. Forchheimer and A. Odmark, in Proceedings of SPIE Applications of Digital Image Pro- 
cessing. A Single Chip Linear Array Processor, vol. 397, pp. 425-430, (1983) 

G.L. Foresti, C. Micheloni, L. Snidaro, P. Remagnino and T. Ellis, in IEEE Signal Process- 
ing Magazine. Active Video-based Surveillance System: The Low-level Image and Video 
Processing Techniques Needed for Implementation, vol. 22, no. 2, pp. 25-37, (2005) 

S. Forstmann, Y. Kanou, J. Ohya, S. Thuering and A. Schmitt, in JEEE Conference on 
Computer Vision and Pattern Recognition Workshop. Real-Time Stereo by Using Dynamic 
Programming, vol. 3, pp. 29—36, (2004) 

D. Forsyth and J. Ponce, in Prentice Hall. Computer Vision: A Modern Approach, (2003) 
E.R. Fossum, in JEEE Transactions on Electron Devices. CMOS Image Sensors: Electronic 
Camera on a Chip, vol. 44, no. 10, pp. 1689-1698, (1997) 

B. Fowler, A. El Gamal and D.X.D. Yang, in IEEE Conference on Solid State Circuits, 
Digest of Technical Papers. A CMOS Area Image Sensor with Multiplexed Pixel Level A/D 
Conversion, pp. 226-227, (1994) 

N. Franceschini, J.M. Pichon, C. Blanes and J.M. Brady, in Philosophical Transactions: 
Biological Sciences, 1992. From Insect Vision to Robot Vision, vol. 337, no. 1281, Natural 
and Artificial Low-Level Seeing Systems, pp. 283—294, (1992) 

J.G. Freyer and D.C. Brown, in Photogrammetric Engineering and Remote Sensing. Lens 
Distortion for Close-range Photogrammetry, vol. 52, no. 1, pp. 51—58, (1986) 

J. Friedman, T. Hastie and R. Tibshirani, in The Annuals of Statistics. Additive Logistic 
Regression: A Statistical View of Boosting, vol. 28, pp. 337-407, (2000) 

K.P. Frohmader, in /EEE Journal of Solid-State Circuits. A Novel MOS Compatible 
Light Intensity-to-frequency Converter Suited for Monolithic Integration, vol. 17, no. 3, 
pp. 588—591, (1982) 

P.W. Fry, P.J.W. Noble and R.J. Rycroft, in JEEE Journal of Solid-State Circuits 1970. Fixed- 
pattern Noise in Photomatrices, vol. 5, no. 5, pp. 250-254, (1970) 

J. Fürtler, J. Brodersen, P. Rossler, K.J. Mayer, G. Cadek, C. Eckel and H. Nachtnebel, in 
Proceedings of the Society of Photo-Optical Instrumentation Engineers (SPIE), N. Kehtar- 
navaz, P.A. Laplante (eds.) Real-Time Image Processing 2006. Architecture for Hardware 
Driven Image Inspection Based on FPGAs, vol. 6063, pp. 105-113, (2006) 

J. Fürtler, E. Bodenstorfer, K.J. Mayer, J. Brodersen, D. Heiss, H. Penz, C. Eckel, K. Gravogl 
and H. Nachtnebel, in Proceedings of the Society of Photo-Optical Instrumentation Engi- 
neers (SPIE), F. Meriaudeau and K.S. Niel (eds.) Machine Vision Applications in Industrial 
Inspection XV. High-performance Camera Module for Fast Quality Inspection in Industrial 
Printing Applications, vol. 6503, (2007) 

J. Fürtler, W. Krattenthaler, K.J. Mayer, H. Penz and A. Vrabl, in Computers in Industry. 
SIS-stamp: An Integrated Inspection System for Sheet Prints in Stamp Printing Application, 
vol. 56, no. 8-9, pp. 958—974, (2005) 


305 





197 


198. 


199. 


200. 


201. 


202. 


203. 


204. 


205. 


206. 


207. 


208. 


209. 


210. 


211. 


212. 


213. 


214. 


215. 


. J. Fürtler, K.J. Mayer, M. Rubik, H. Penz, J. Brodersen, G. Christian, C. Eckel and H. Nacht- 
nebel, in , Real-Time Image Processing 2008 Proceedings of SPIE-IS&T Electronic Imaging, 
N. Kehtarnavaz and M.F. Carlsohn (eds.). Streaming Warper with Cubic Spline Interpolation 
for Rectification of Distorted Images on FPGAs, vol. 6811, pp. 137-146, (2008) 

J. Furtler, K.J. Mayer, C. Eckel, J. Brodersen, H. Nachtnebel and G. Cadek, in EURASIP 
Journal on Embedded Systems. Geometry Unit for Analysis of Warped Image Features on 
Programmable Chips, (2007) 

J. Fürtler, P. Rossler, H. Nachtnebel, K.J. Mayer, G. Cadek and C. Eckel, in EURASIP Jour- 
nal on Embedded Systems. Design Considerations for Scalable High-performance Vision 
Systems Embedded in Industrial Print Inspection Machines, (2007) 

K. Fukushima, Y. Yamaguchi, M. Yasuda and S. Nagata, in JEEE Proceedings. An Electronic 
Model of the Retina, vol. 58, no. 12, pp. 1950-1951, (1970) 

E. Funatsu, K. Hara, T. Toyoda, Y. Miyake, J. Ohta, S. Tai and K. Kyuma, in IEEE Photonics 
Technology Letters. An Artificial Retina Chip Made of a 128*128 pn-np Variable-sensitivity 
Photodetector Array, vol. 7, no. 2, pp. 188-190, (1995) 

E. Funatsu, Y. Nitta, Y. Miyake, T. Toyoda, J. Ohta and K. Kyuma, in JEEE Transactions on 
Electron Devices. An Artificial Retina Chip with Current Mode Focal Plane Image Process- 
ing Functions, vol. 44, no. 10, pp. 1777-1782, (1997) 

A. Fusiello and L. Irsara. Research Report RR 43/2006, Department of Computer Science, 
University of Verona, Italy. Quasi-euclidean Uncalibrated Epipolar Rectification, (2006) 

A. Fusiello, E. Trucco and A. Verri, in Proceedings of the British Machine Vision Confer- 
ence, BMVA Press. Rectification with Unconstrained Stereo Geometry, pp. 400-409, (1997) 
A. Fusiello, E. Trucco and R. Verri, in Machine Vision and Applications. A Compact Algo- 
rithm for Rectification of Stereo pairs, vol. 12, pp. 16—22, (2000) 

R.C. Galan, F. Jimenez-Garrido, R. Dominguez-Castro, S. Espejo, T. Roska, C. Rekeczky, 
I. Petras and A. Rodriguez-Vazquez, in IEEE Transactions on Neural Networks. A Bio- 
inspired Two-layer Mixed-signal Flexible Programmable Chip for Early Vision, vol. 14, no. 
5, pp. 1313-1336, (2003) 

A. Galata, N. Johnson and D. Hogg, in Computer Vision and Image Understanding: CVIU. 
Learning Variable Length Markov Models of Behaviour, vol. 81, pp. 398-413, (2001) 

A. C. Gallagher, in Pattern Recognition. A Groundtruth Based Vanishing Point Detection 
Algorithm, vol. 35, pp. 1527-1543, (2002) 

X. Gao, R. Kleihorst and B. Schueler, in Proceedings ECV/CVPR 2008, Anchorage, USA. 
Stereo Vision in a Smart Camera System, (2008) 

X. Gao, R. Kleihorst, P. Meijer and B. Schueler, in /nternational Conference on Distributed 
Smart Cameras, Stanford, Ca, USA. Selt-rectification and Depth Estimation of Stereo Video 
in a Real-time Smart Camera System, pp. 1—8, (2008) 

J. Gealow and C. Sodini, in IEEE Journal of Solid-State Circuits. A Pixel-parallel Image 
Processor Using Logic Pitch-matched to Dynamic Memory, vol. 34, no. 6, pp. 831-839, 
(1999) 

P. Giacon, S. Saggin, G. Tommasi and M. Busti, in Xcell Journal. Implementing DSP Algo- 
rithms Using Spartan-3 FPGAs, vol. 53, pp. 22-25, (2005) 

A. Gil, O. Reinoso, C. Fernandez and M.A. Vicente, in Proceedings of 3rd Interna- 
tional conference on Informatics in Control and Automation in Robotics, Lisbon, Portugal. 
Simultaneous Localization and Mapping in Unmodified Environments Using Stereo Vision, 
pp. 482-488, (2006) 

H. Glasl, D. Schreiber, N. Viertl, S. Veigl and Gustavo Fernández, in //th International 
IEEE Conference on Intelligent Transportation Systems, Beijing, China. Video Based Traffic 
Congestion Prediction on an Embedded System, pp. 950-955, (2008) 

R.C. Gonzalez, J.A. Cancelas, J. C. Alvarez, J.A. Fernandez and J.M. Enguita, in IEEE Con- 
ference on Emerging Technologies and Factory Automation. Fast Stereo Vision Algorithm 
for Robotic Applications, vol. 1, pp. 97-104, (1999) 


306 智能 摄像 机 





216. 


217. 


218. 


219. 


220. 


221. 


222. 


223. 


224. 


225. 


226. 


227. 


228. 


229. 


230. 


231. 


232. 


233. 


234. 


235: 


L. Grammatikopoulos, G. Karras and E. Petsa, in Proceedings of the XIX CIPA International 
Symposium, Antalya, Turkey. Camera Calibration Approaches Using Single Images of Man- 
made Objects, pp. 328-332, (2003) 

K. Grauman and T. Darrell, in Proceedings IEEE Conference on Computer Vision and Pat- 
tern Recognition (CVPR), San Diego, CA, USA. Efficient Image Matching with Distribu- 
tions of Local Invariant Features, vol. 2, pp. 627—637, (2005) 

W. Grimson, C. Stauffer, R. Romano and L. Lee, in Proceedings of the International Con- 


ference on Computer Vision and Pattern Recognition, CVPR98. Using Adaptive Tracking to 


Classify and Monitor Activities in a Site, pp. 22-29,(1998) 

V. Gruev and R. Etienne-Cummings, in /EEE Transactions on Circuits and Systems II: 
Analog and Digital Signal Processing. Implementation of Steerable Spatiotemporal Image 
Filters on the Focal Plane, vol. 49, no. 4, pp. 233-244, (2002) 

V. Gruev, Z. Yang, J.V. der Spiegel and R. Etienne-Cummings, in [EEE International Sym- 
posium on Circuits and Systems (2007) ISCAS. Two Transistor Current Mode Active Pixel 
Sensor, pp. 2846-2849, (2007) 

X. Guo, X. Qi and J.G. Harris, in IEEE Sensors Journal. A Time-to-First-Spike CMOS 
Image Sensor, vol. 7, no. 8, pp. 1165-1175, (2007) 

A.M. Haas, S.L. Williams, M.H. Cohen and P.A. Abshire, in 48th Midwest Symposium 
on Circuits and Systems (2005). Dark Address Event Representation Imager, vol. 1, 
pp. 388-391, (2005) 

D.W. Hammerstrom and D.P. Lulich, in Proceedings of the IEEE. Image Processing Using 
One-dimensional Processor Arrays, vol. 84, pp. 1005-1018, (1996) 

A. Hampapur, L. Brown, J. Connell, S. Pankanti, A. Senior and Y. Tian, in IEEE Pacific-Rim 
Conference On Multimedia. Smart Surveillance: Applications, Technologies and Implica- 
tions, vol. 2, pp. 1133-1138, (2003) 

S. Haritaoglu, D. Harwood and L. Davis, in ZEEE Transactions on Pattern Analysis and 
Machine Intelligence. w^: Real-Time Surveillance of People and their Activities, vol. 22, 
no. 8, pp. 809—830, (2000) 

I. Haritaoglu, D. Harwood and L. Davis, in Proceedings of 2nd IEEE Workshop on Visual 
Surveillance, Fort Collins, CO, USA. Hydra: Multiple People Detection and Tracking Using 
Silhouettes, pp. 6-13, (1999) 

R. Hartley, in International Journal of Computer Vision. Theory and Practice of Projective 
Rectification, vol. 35, pp. 115-127, (1999) 

R. Hartley and S.B. Kang, in Tech. Rep. MSR-TR-2005-42, Microsoft Research. Parameter- 
free Radial Distortion Correction with Centre of Distortion Estimation, (2005) 

R. Hartley and A. Zisserman, in Cambridge University Press. Multiple View Geometry in 
Computer Vision, (2004) 

A. Hauptmann, in Lecture Notes in Computer Science, Springer. Lessons for the Future from 
a Decade of Informedia Video Analysis Research, vol. 3568, pp. 1-10, (2005) 

N. Hayashi, H. Nittaya, K. Masahiro and M. Kato, in Proceedings of the 1992 Interna- 
tional Conference on Industrial Electronics, Control, Instrumentation, and Automation. 
New Approach to and Implementation of an LSI for High-speed Image Labeling, vol. 2, 
pp. 767—771,(1992) 

Y. He, Z. Zivkovic, R. Kleihorst, A. Danilin and H. Corporaal, in International Conference 
on Distributed Smart Cameras, Stanford, Ca, USA. Real-time Implementations of Hough 
Transform on SIMD Architecture, (2008) 

S. Hengstler, D. Prashanth, S. Fong and H. Aghajan, in International Symposium on Infor- 
mation Processing in Sensor Networks (IPSN). MeshEye: A Hybrid-resolution Smart Cam- 
era Mote for Applications in Distributed Intelligent Surveillance, pp. 360—369, (2007) 

I. Hermanto, R.E. Gagnon and P. Heam, in IEEE Canadian Conference on Electrical and 
Computer Engineering, 1997. Machine Vision For Ice Layer Thickness Measurements, vol. 
2, pp. 819-822, (1997) 

D. Hoiem, A. Efros and M. Hebert, in Proceedings of the International Conference on 
Computer Vision and Pattern Recognition, CVPRO6. Putting Objects in Perspective, vol. 2, 
pp. 2137-2144, (2006) 


236. 
231; 
238. 


239. 


240. 


241. 


242. 


243. 


244. 


245. 


246. 


247. 


248. 


249. 


250. 


251. 


252. 


253. 


254. 


235. 
256. 


G.R. Hopkinson, T. M. Goodman and S.R. Prince, in A Guide to the Use and Calibration of 
Detector Array Equipment, SPIE-Press, Bellingham, WA, USA. (2004) 

A. Hornberg, in Wiley-VCH 2006 Edition. Handbook of Machine Vision, (2006) 

T. Horprasert, D. Harwood and L. Davis, in Proceedings of Int. Conf. on Computer Vision, 
Frame Rate Workshop. A Statistical Approach for Real-time Robust Background Subtraction 
and Shadow Detection, pp. 436—439, (1999) 

J. Horton, R. Mazza and H. Dym, in Proceedings of the IEEE. The Scanistor — a Solid State 
Image Scanner, vol. 52, pp. 1513-1528, (1964) 

M. Hotter, R. Mester and F. Muller, in Signal Processing: Image Communication. Detec- 
tion and Description of Moving Objects by Stochastic Modelling and Analysis of Complex 
Scenes, vol. 8, pp. 281—293, (1996) 

R. Howard and H. Buxton, in /0th European Conference On Artificial Intelligence. Ana- 
logical Representation of Spatial Events, for Understanding Traffic Behaviour, pp. 785—789, 
(1992) 

Y. Hsu, H. Nagel and G.Rekers, in Computer Vision, Graphics and Image Processing. New 
Likelihood Test Methods for Change Detection in Image Sequences, vol. 26, pp. 73-106, 
(1984) 

W. Hu, T. Tan, L. Wang and S. Maybank, in JEEE Trans. on Systems, Man and Cybernetics, 
Part C: Applications and Reviews. A Survey on Visual Surveillance Object Motion and 
Behaviors, vol. 34, no. 3, pp. 334—352, (2004) 

W. Hu, X. Xiao, Z. Fu, D. Xie, T. Tan, and S. Maybank, in JEEE Transactions on Pattern 
Analysis and Machine Intelligence. A System for Learning Statistical Motion Patterns, vol. 
28 pp. 1450-1464, (2006) 

T. Huang and S. Russell, in Proceedings of 15th International Joint Conference on Artificial 
Intelligence, Nagoya, Japan. Object Identification in a Bayesian Context, pp. 1276-1283, 
(1997) 

A. Hunter, J. Owens and M. Carpenter, in JEE Intelligent Distributed Surveillance Systems. 
A Neural System for Automated CCTV Surveillance, pp. 14/1—14/5, (2003) 

A. Ilie and G. Welch, in /CCV '05: Proceedings of the Tenth IEEE International Confer- 
ence on Computer Vision. Ensuring Color Consistency Across Multiple Cameras, vol. 2, 
pp. 1268-1275, (2005) 

IMS Research. Article Published in September 2005 at the Website of IMS Research. Infor- 
mation Accessed in January 2009. Smart Cameras Drive Machine Vision Market Growth, 
(2005) 

IMV Europe. Information Published in October 2008 at the Website of the IMV Europe and 
Accessed in January 2009. OpenCV — Vision Components, (2008) 

G. Indiveri, P. Oswald and J. Kramer, in IEEE International Symposium on Circuits and 
Systems, ISCAS (2002). An Adaptive Visual Tracking Sensor with a Hysteretic Winner- 
Take-all Network, vol. 2, pp. II-324-11-327, (2002) 

M. Isard and A. Blake, in Proceedings European Conference on Computer Vision. Icon- 
densation: Unifying Low-level and High-level Tracking in a Stochastic Framework, vol. 1, 
pp. 767—781, (1998) 

M. Ishikawa, K. Ogawa, T. Komuro and I. Ishii, in JEEE International Conference on Solid- 
State Circuits, ISSCC, Digest of Technical Papers. A CMOS Vision Chip with SIMD Pro- 
cessing Element Array for 1 ms Image Processing, pp. 206-207, (1999) 

V. Ivanchenko, J. Coughlan and H. Shen, in IEEE Computer Society Conference on Com- 
puter Vision and Pattern Recognition Workshops, 2008. Detecting and Locating Crosswalks 
using a Camera Phone, pp. 1-8, (2008) 

A. Iwata, M. Nagata, N. Takeda, M. Homma and T. Norie, in The IEEE International 
Symposium on Circuits and Systems, Proceedings ISCAS 2000. Pulse Modulation Circuit 
Architecture and its Application to Functional Image Sensors, vol. 2, pp. 301—304, (2000) 
B. Jahne, in Digital Image Processing, Springer-Verlag, Berlin. (2002) 

A. Jain, D. Kopell, K. Kakligian and Y. F. Wang, in Proceedings of IEEE Conference on 
Computer Vision and Pattern Recognition, New York, USA. Using Stationary-Dynamic 


307 


308 智能 摄像 机 





254; 


258. 
259. 
260. 


261. 


262. 


263. 


264. 


265. 


266. 


267. 


268. 


269. 


270. 


271. 


242. 


273. 


274. 


275. 


276. 


277. 


Camera Assemblies for Wide-area Video Surveillance and Selective Attention, vol. 1, 
pp. 537-544, (2006) 

R. Jain and H. Nagel, in JEEE Transactions on Pattern Analysis and Machine Intelligence. 
On the Analysis of Accumulative Difference Pictures from Image Sequences of Real World 
Scenes, vol. 1, pp. 206-214, (1979) 

J.R. Janesick, in Scientific Charge Coupled Devices, SPIE-Press. (2001) 

J. Janesick, in oeMagazine. Duelling Detectors, pp. 30-33, (2002) 

O. Javed, Z. Rasheed, K. Shafique and M. Shah, in Proceedings of IEEE International 
Conference on Computer Vision (ICCV), Nice, France. Tracking Across Multiple Cameras 
Disjoint Views, pp. 952-957, (2003) 

O. Javed, K. Shafique, Z. Rasheed and M. Shah, in Computer Vision and Image Understand- 
ing Journal. Modeling Inter-camera Space-time and Appearance Relationships for Tracking 
Across Non-overlapping Views, vol. 109, no. 2, pp. 146-162, (2008) 

O. Javed, K. Shafique and M. Shah, in Proceedings of IEEE Conference on Computer 
Vision and Pattern Recognition 2005, San Diego, California, USA. Appearance Modeling 
for Tracking in Multiple Non-overlapping Cameras, vol. 2, pp. 26-33, (2005) 

O. Javed and M. Shah, in Automated Multi-Camera Surveillance: Algorithms and Practice, 
Springer Verlag. (2008) 

V. Jeanne, F.X. Jegaden, R. Kleihorst, A. Danilin and B. Schueler, in DSC’06, Boulder, USA. 
Real-time Face Detection on a Dual-Sensor Smart Camera Using Smooth-edges Technique, 
(2006) 

N. Johnson and D. Hogg, in /mage and Vision Computing. Learning the Distribution of 
Object Trajectories for Event Recognition, vol. 14 pp. 609-615, (1996) 

M. Jones and P. Viola, in Proceedings IEEE Conference on Computer Vision and Pattern 
Recognition (CVPR). Fast Multi-view Face Detection, (2003) 

P. Jonker, in Kluwer. Morphological Image Processing: Architecture and VLSI Design, 
(1992) 

P. Jonker, in Proceedings 12th IAPR Conf. on Pattern Recognition, Jerusalem, Israel. Why 
Linear Arrays are Better Image Processors, pp. 334—338, (1994) 

I. Junejo and H. Foroosh, in Proceedings of the IEEE International Conference on 
Video and Signal Based Surveillance (AVSS'06). Robust Auto-calibration from Pedestrians, 
(2006) 

S. Kagami, T. Komuro and M. Ishikawa, in The 8th IEEE International Workshop on 
Advanced Motion Control, AMC '04. A High-speed Vision System with In-pixel Pro- 
grammable ADCs and PEs for Real-time Visual Sensing, pp. 439-443, (2004) 

K. Kagawa, K. Isakari, T. Furumiya, A. Uehara, T. Tokuda, J. Ohta and M. Nunoshita, in 
Electronics Letters. Pixel Design of Pulsed CMOS Image Sensor for Retinal Prosthesis with 
Digital Photosensitivity Control, vol. 39, no. 5, pp. 419-421, (2003) 

K. Kagawa, K. Yasuoka, D.C. Ng, T. Furumiya, T. Tokuda, J. Ohta and M. Nunoshita, 
in JEEE Journal of Selected Topics in Quantum Electronics. Pulse-domain Digital Image 
Processing for Vision Chips Employing Low-voltage Operation in Deep-Submicrometer 
Technologies, vol. 10, no. 4, pp. 816—828, (2004) 

K. Kagawa, S. Shishido, T. Sasaki, I. Nagahata, M. Nunoshita and J. Ohta, in IEICE Elec- 
tronics Express. A Low-Voltage PVM CMOS Imager with Small Pixel Size Using an In- 
pixel Gate-common Comparator, vol. 34, no. 8, pp. 271—276, (2007) 

R. Kalman, in Transactions of the ASME Journal of Basic Engineering. A New Approach to 
Linear Filtering and Prediction Problems, pp. 35-45, (1960) 

K. Kanatani, in Elsevier. Statistical Optimization for Geometric Computation, (1996) 

J. Kang, I. Cohen and G. Medioni, in Proceedings of IEEE Conference on Computer Vision 
and Pattern Recognition (CVPR), Madison, Wisconsin, USA. Continuous Tracking Within 
and Across Cameras Streams, pp. 267—272, (2003) 

J. Kang, I. Cohen and G. Medioni, in Proceedings of 17th IEEE Conference on Pat- 
tern Recognition (ICPR), Cambridge, UK. Object Reacquisition using Geometric Invariant 
Appearance, pp. 759—762, (2003) 


309 





278 


279. 


280. 


281. 


282. 


283. 


284. 


285. 


286. 


287. 


288. 


289. 


290. 


291. 


292. 


293. 


294. 


295. 


. S. Kang, J. Paik, A. Koschan, B. Abidi and M. Abidi, in Proceedings of SPIE 6th Interna- 
tional Conference on Quality Control by Artificial Vision, Tennessee, USA. Real-time Video 
Tracking Using PTZ Cameras, vol. 5132, pp. 103-111, (2003) 

N. Karlsson, E. Benardo, J. Ostrowski, L. Gonclaves, P. Pirjanian and M. E. Munich, in /nter- 
national Conference on Robotics and Automation (ICRA), Barcelona, Spain. The vSLAM 
Algorithm for Robust Localization and Mapping, (2005) 

R. Kasturi, in Computer Science & Engineering University of South Florida, Tampa, USA. 
Performance Evaluation Protocol for Face, Person and Vehicle Detection & Tracking in 
Video Analysis and Content Extraction (VACE-ID, (2006) 

R. Kasturi, D. Goldgof, P. Soundararajan, V. Manohar, M. Boonstra, V. Korzhova, J. 
Zhang, R. Bowers and J. Garofolo, in JEEE Transactions on Pattern Analysis and Machine 
Intelligence. Framework for Performance Evaluation of Face, Text, and Vehicle Detec- 
tion and Tracking in Video: Data, Metrics, and Protocol, vol. 31, no. 2, pp. 319-336, 
(2008) 

R. Kaucic, A. Perera, G. Brooksby, J. Kaufhold and A. Hoogs, in Proceedings IEEE 
Conference on Computer Vision and Pattern Recognition (CVPR). A Unified Frame- 
work for Tracking Through Occlusions and Across Sensor Gaps, vol. 1, pp. 990-997, 
(2005) 

S. Kavadias, B. Dierickx, D. Scheffer, A. Alaerts, D. Uwaerts and J. Bogaerts, in JEEE 
Journal of Solid-State Circuits. A Logarithmic Response CMOS Image Sensor with On-chip 
Calibration, vol. 35, no. 8, pp. 1146-1152, (2000) 

M. Kemp, in The Science of Art: Optical Themes in Western Art from Brunelleschi to Seurat, 
Yale University Press New York (1992) 

V. Kettnaker and R. Zabith, in Proceedings of IEEE Conference on Computer Vision and 
Pattern Recognition (CVPR), 1999, Fort Collins, Colorado, USA. Bayesian Multi- Camera 
Surveillance, vol. 2, pp. 117-123, (1999) 

B. Khaleghi, S. Ahuja and Q. Wu, in Proceedings of 2nd IEEE Workshop on Embedded 
Computer Vision (ECVW), CVPR 2008. An Improved Real-time Miniaturized Embedded 
Stereo Vision System (MESVS-ID, pp. 1-8, (2008) 

S. Khan, O. Javed, Z. Rasheed and M. Shah, in /EEE International Conference on Computer 
Vision. Human Tracking in Multiple Cameras, vol. 1. pp. 331-336, (2001) 

S. Khawam, I. Nousias, M. Milward, Y. Yi, M. Muir and T. Arslan, in JEEE Transactions 
on Very Large Scale Integration (VLSI) Systems. The Reconfigurable Instruction Cell Array, 
vol. 16, no. 1, pp. 75-85, (2008) 

B. Kisacanin, in Proceedings of the 2005 IEEE Computer Society Conference on Computer 
Vision and Pattern Recognition. Examples of Low-Level Computer Vision on Media Pro- 
cessors, P. 135, (2005) 

B. Kisacanin, S.S. Bhattacharyya and S. Chai. in Embedded Computer Vision, Springer, New 
York (2007) 

A. Kitchen, A. Bermak and A. Bouzerdoum, in IEEE Electron Device Letters. PWM Digital 
Pixel Sensor Based on Asynchronous Self-resetting Scheme, vol. 25, no. 7, pp. 471-473, 
(2004) 

A. Kitchen and A. Bermak and A. Bouzerdoum, in JEEE Transactions on Electron 
Devices. A Digital Pixel Sensor Array with Programmable Dynamic Range, vol. 52, no. 12, 
pp. 2591-2601, (2005) 

R. Kleihorst, in Abstracts of the SAFE & ProRISC/TEEE Workshops on Semiconductors, 
Circuits and Systems and Signal Processing, Veldhoven, The Netherlands. A SIMD Smart 
Camera Architecture for Real-time Face Recognition, (2003) 

R. Kleihorst, A. Abbo, A. van der Avoird, M.O. de Beeck, L. Sevat, P. Wielage, R. van 
Veen and H. van Herten, in ISCAS 2001, Sydney, Australia. Xetal: A Low-power High- 
performance Smart Camera Processor, vol. 5, pp. 215-218, (2001) 

R. Kleihorst, B. Schueler and A. Danilin, in Proceedings of IEEE International Conference 
on Acoustics, Speech and Signal Processing, 2007. Architecture and Applications of Wire- 
less Smart Cameras (Networks), vol. 4, Pages:IV-1373-IV-1376, (2007) 


310 智能 摄像 机 





296. 


297; 


298. 


299; 


300. 


301. 


302. 


303. 


304. 


305. 


306. 


307. 


308. 


309. 


310. 


311. 


312. 


313. 


314. 


315. 


R. Kleihorst, B. Schueler, A. Danilin and M. Heijligers, in Workshop on Distributed Smart 
Cameras (DSC). Smart Camera Mote with High Performance Vision System, (2006) 

S. Kleinfelder, S. Lim, X. Liu and A. El Gamal, in JEEE Journal of Solid-State Circuits. A 
10000 Frames/s CMOS Digital Pixel Sensor, vol. 36, no. 12, pp. 2049-2059, (2001) 

E. Koller-meier and L.V. Gool, in 2nd European Workshop on Advanced Video-Based 
Surveillance Systems. Modeling and Recognition of Human Actions Using a Stochastic 
Approach, pp. 17-28, (2001) 

V. Kolmogorov and R. Zabih, in IEEE Conference on Computer Vision. Computing Visual 
Correspondence with Occlusions using Graph Cuts, pp. 508—515, (2001) 

T. Komuro, I. Ishii, M. Ishikawa and A. Yoshida, in Electron Devices, IEEE Transac- 
tions on. A Digital Vision Chip Specialized for High-speed Target Tracking, vol. 50, no. 1, 
pp. 191-199, (2003) 

T. Komuro, S. Kagami and M. Ishikawa, in /EEE Journal of Solid-State Circuits. A Dynam- 
ically Reconfigurable SIMD Processor for a Vision Chip, vol. 39, no. 1, pp. 265-268, 
(2004) 

J. Kosecka and W. Zhang, in Proceedings of the 7th European Conference on Computer 
Vision (ECCV), Springer-Verlag. Video Compass, vol. 2353, pp. 476—490, (2002) 

N. Krahnstoever and P. Mendoca, in Proceedings of the 5th International conference on 
Computer Vision (ICCV). Bayesian Autocalibration for Surveillance, vol. 2, pp. 1858-1865, 
(2005) 

J. Kramer, in JEEE International Symposium on Circuits and Systems, ISCAS (2002). 
An ON/OFF Transient Imager with Event-Driven, Asynchronous Read-Out, vol. 2, 
pp. 165-168, (2002) 

S. Kumar and C. Piciarelli, in VISSAP-09, Lisbon, Portugal. Stereo Vision Using Heteroge- 
neous Sensors for Complex Scene Monitoring, (2009) 

H. Kwon, J. Park and A. Kak, in JEEE International Conference on Robotics and Automa- 
tion. A New Approach for Active Stereo Camera Calibration, pp. 3180-3185, (2007) 

E.F. Lally, in Space Flight Report to the Nation, American Rocket Society. Mosaic Guidance 
for Interplanetary Travel, pp. 2249-2261, (1961) 

E. Lange, E. Funatsu, K. Hara and K. Kyuma, in Proceedings of 1993 International Joint 
Conference on Neural Networks. Artificial Retina Devices — Fast Front Ends for Neural 
Image Processing Systems, vol. 1, pp. 801—804, (1993) 

J.P. Lazzaro, J. Wawrzynek, M. Mahowald, M. Sivilotti and D. Gillespie, in EEE Trans- 
actions on Neural Networks. Silicon Auditory Processors as Computer Peripherals, vol. 4, 
no. 3, pp. 523-528, (1993) 

L. Lee, R. Romano and G. Stein, in ZEEE Trans. on Pattern Recognition and Machine 
Intelligence. Monitoring Activities from Multiple Video Streams: Establishing a Common 
Coordinate Frame, vol. 22 pp. 758—768, (2000) 

K.F. Lee and B. Tang, in JEEE Intelligent Vehicles Symposium. Image Processing for In- 
vehicle Smart Cameras, (2006) 

B. Leibe, K. Schindler, N. Cornelis and L.V. Gool, in IEEE Transactions on Pattern Analysis 
and Machine Intelligence. Coupled Object Detection and Tracking from Static Cameras and 
Moving Vehicles, vol. 30, no. 10, pp. 1683-1698, (2008) 

G. Lepage, D. Dantés and W. Diels, in M.M. Blouke (ed.) Society of Photo-Optical Instru- 
mentation Engineers (SPIE) Conference Series, Society of Photo-Optical Instrumentation 
Engineers (SPIE) Conference Series. CMOS Long Linear Array for Space Application, vol. 
6068, pp. 61—68, (2006) 

H. Li and R. Hartley, in Proceedings of the 6th Workshop on Omnidirectional Vision, Camera 
Networks and Non-classical Cameras. A Non-iterative Method for Correcting Lens Distor- 
tion from Nine Point Correspondences, (2005) 

Y.M. Liang, H.R. Tyan, H.Y.M. Liao and S.W. Chen, in Proceedings of IEEE Intl. Conf. on 
Intelligent Transportation Systems, Shangai, China. Stabilizing Image Sequences Taken by 
the Camcorder Mounted on a Moving Vehicle, pp. 90—95, (2003) 


311 





316. 


317. 


318. 


319. 


320. 


321. 


322; 


323. 


324. 


325. 
326. 


327. 


328. 


P. Lichtsteiner and T. Delbruck, in Research in Microelectronics and Electronics, 2005 PhD. 
A 64x64 AER Logarithmic Temporal Derivative Silicon Retina, vol. 2, pp. 202-205, (2005) 
P. Lichtsteiner, C. Posch and T. Delbruck, in /EEE Journal of Solid-State Circuits. A 128 x 
128 120 dB 15 us Latency Asynchronous Temporal Contrast Vision Sensor, vol. 43, no. 2, 
pp. 566—576, (2008) 

D. Liebowitz, in Ph.D. thesis, University of Oxford, Department of. Engineering Science. 
Camera Calibration and Reconstruction of Geometry from Images, (2001). 

D. Liebowitz and A. Zisserman, in Proceedings of the Conference on Computer Vision and 
Pattern Recognition, IEEE, Santa Barbara, CA, USA. Metric Rectification for Perspective 
Images of Planes, pp. 482-488, (1998) 

D. Liebowitz and A. Zisserman, in Proceedings of the IEEE International Conference on 
Pattern Recognition (ICCV). Combining Scene and Auto-calibration Constraints, vol. 1, 
pp. 293-300, (1999) 

R. Lillestrand, in /EEE Transactions on Computers. Techniques for Change Detection, vol. 
21, no. 7, pp. 654—659, (1972) 

Q. Lin et al., in Proceedings of VISION 2008 Intl. Conference, Versailles-Satory, France. A 
Far-Infrared based Night- Vision System with Detection, (2008) 

G. Linan, R. Dominguez-Castro, S. Espejo and A. Rodriguez- Vazquez, in Proceedings of 
the 27th European Conference on Solid-State Circuits, ESSCIRC. ACE16K: An Advanced 
Focal-plane Analog Programmable Array Processor, pp. 201—204, (2001) 

D. Litwiller, in Photonics Spectra. CCD vs CMOS: Facts and Fiction, vol. 3, pp. 154-158, 
(2001) 

D. Litwiller, in Photonics Spectra. CMOS vs. CCD, (2005) 

M. Litzenberger, H. Glasl, B. Kohn, B. Schalko, and G. Fernández, in Proceedings of the 
11th International IEEE Conference on Intelligent Transportation Systems, Beijing, China. 
Sensor Fusion on an Embedded System for Traffic Data Analysis - ETRADA-V System, 
pp. 894—899, (2008) 

M. Litzenberger, A.N. Belbachir, P. Schon and C. Posch, in First ACM/IEEE International 
Conference on Distributed Smart Cameras, 2007. Embedded Smart Camera for High Speed 
Vision, pp. 81-86, (2007) 

M. Litzenberger, C. Posch, D. Bauer, A.N. Belbachir, P. Schon, B. Kohn and H. Garn, 
in Proceedings of the 4th Digital Signal Processing Workshop, 12th — Signal Processing 
Education Workshop. Embedded Vision System for Real-time Object Tracking Using an 
Asynchronous Transient Vision Sensor, pp. 173-178, (2006) 


. H. Liu, in Philips Apptech. Personal Communication, (2004) 
. S.C. Liu, C.W. Fu and S. Chang, in JEEE Transactions on Image Processing. Statis- 


tical Change Detection with Moments under Time-Varying Illumination, vol. 7, no. 9, 
pp. 1258-1268, (1993) 


. S.C. Liu, J. Kramer, G. Indiveri, T. Delbruck and R. Douglas, in Analog VLSI: Circuits and 


Principles, The MIT Press, Cambridge (2004) 


. E. Ljung, E. Simmons, A. Danilin, R. Kleihorst and B. Schueler, in DSC'06, Boulder, USA. 


802.15.4 Powered Wireless Smart Cameras Network, (2006) 


. M. Loose, K. Meier and J. Schemmel, in JEEE Journal of Solid-State Circuits. A 


Self-calibrating Single-chip CMOS Camera with Logarithmic Response, vol. 36, no. 4, 
pp. 586—596, (2001) 


. A. Lopich and P. Dudek, in Proceedings of IEEE International Symposium on Circuits 


and Systems, ISCAS (2006). Architecture of a VLSI Cellular Processor Array for Syn- 
chronous/Asynchronous Image Processing, pp. 3618—3621, (2006) 


. A. Lopich and P. Dudek, in IEEE International Symposium on Circuits and Systems, ISCAS 


(2008). ASPA: Focal Plane Digital Processor Array with Asynchronous Processing Capa- 
bilities, pp. 1592-1595, (2008) 


312 智能 摄像 机 





336. 


339. 


340. 


341. 


342. 


343. 


344. 


345. 


346. 


347. 


348. 


349. 


350. 


351. 


952: 


353. 
354. 


355. 


356. 


J. Lou, Q. Liu, T. Tan and W. Hu, in Proceedings of the IEEE International Conference on 
Pattern Recognition, ICPR2002. Semantic Interpretation of Object Activities in a Surveil- 
lance System, vol. 3, pp. 777—780, (2002) 


. D.G. Lowe, in International Journal of Computer Vision. Distinctive Image Features from 


Scale-invariant Keypoints, vol. 60, no. 2, pp. 91-110, (2004) 


. B. Lucas and T. Kanade, in Proceedings of International Joint Conference on Artificial Intel- 


ligence. An Iterative Image Registration Technique with an Application to Stereo Vision, 
pp. 674—679, (1981) 

T. Lule, S. Benthien, H. Keller, F. Mutze, P. Rieve, K. Seibel, M. Sommer and M. Bohm, in 
Electron Devices, IEEE Transactions on. Sensitivity of CMOS Based Imagers and Scaling 
Perspectives, vol. 47, no. 11, pp. 2110-2122, (2000) 

Q. Luo and J.G. Harris, in Proceedings of the 2004 International Symposium on Circuits and 
Systems. A Time-based CMOS Image Sensor, vol. 4, pp. 1V-840-3, (2004) 

E. Lutton, H. Maitre and J. Lopez-Krahe, in JEEE Transactions on Pattern Analysis and 
Machine Intelligence (PAMI). Contribution to the Determination of Vanishing Points Using 
Hough Transform, vol. 4, no. 16, pp. 430—438, (1994) 

F. Lv, T. Zhao and R. Nevatia, in International Conference on Pattern Recognition. Self- 
calibration of a Camera from Video of a Walking Human, vol. 1, pp. 562-567, (2002) 

R.F. Lyon, in SPIE 2006 for an Invited Paper. A Brief History of ’ Pixel’, (2006) 

R.F. Lyon, in Computer Science Press. Invited Paper, CMU Conference on VLSI Struc- 
tures and Computations, Pittsburgh, H.T.Kung, B.Sproull, and G.Steele, (eds.). The Optical 
Mouse, and an Architectural Methodology for Smart Digital Sensors, (1981) 

R.F. Lyon. European Patent. Apparatus for Controlling Movement of a Curser in a Computer 
Display System, (1983) 

Y. Ma, S. Soatto, J. Kosecka and S.S. Sastry, in Springer. An Invitation to 3-D Vision, 
(2004) 

J. Mac Cormick and A. Blake, in International Journal on Computer Vision. Probabilistic 
Exclusion and Partitioned Sampling for Multiple Object Tracking, vol. 39, no. 1, pp. 57-71, 
(2000) 

S.R. Madden, M.J. Franklin, J.M. Hellerstein and W. Hong, in $/GMOD. The Design of an 
Acquisitional Query Processor for Sensor Networks, (2003) 

M.J. Magee and J.K. Aggarwal, in Journal of Computer Vision, Graphics and Image Pro- 
cessing. Determining Vanishing Points from Perspective Images, vol. 26, no. 2, pp. 256-267, 
(1984) 

M. Mahowald and C.A. Mead, in C. A. Mead, Analog VLSI and Neural Systems, Addison- 
Wesley. Silicon Retina, pp. 257-278, (1989) 

A. Makarov, J. Vesin and F. Reymond, in Proceedings of SPIE Electronic Imaging — Real 
Time Imaging, San José, USA. Intrusion Detection Robust to Slow and Abrupt Lighting 
Changes, pp. 44—54, (1996) 

D. Makris, T. Ellis and J. Black, in Proceedings of the International Conference on Computer 
Vision and Pattern Recognition. Bridging the Gaps Between Cameras, vol. 2, pp. II-205-1I- 
210, (2004) 

J. Mallet and V.M. Bove, in /CME2003, Baltimore, MD, USA. Eye Society, (2003) 

H.S. Malvar, L.W. He and R. Cutler, in Proceedings of International Conference on Acous- 
tics, Speech, and Signal Processing. High Quality Linear Interpolation for Demosaicing of 
Bayer-Patterned Color Images, vol. 3, pp. 111-485-8, (2004) 

V. Manohar, M. Boonstra, V. Korzhova, P. Soundararajan, D. Goldgof, R. Kasturi, S. Prasad, 
H. Raju, R. Bowers and J. Garofolo, in Proceedings IEEE Conference on Computer Vision 
and Pattern Recognition (CVPR), Ninth IEEE International Workshop on Performance Eval- 
uation of Tracking and Surveillance (PETS), New York, USA. PETS vs. VACE Evaluation 
Programs: a Comparative Study, pp. 1-6, (2006) 

L. Marcenaro, G. Gera and C. Regazzoni, in Proceedings of European Signal Process- 
ing Conference (EUSIPCO), Tampere, Finland. Adaptive Change Detection Approach for 
Object Detection in Outdoor Scenes under Variable Speed Illumination Changes, (2000) 





357 


358. 


359. 


360. 


361. 


362. 


367. 


368. 


369. 
370. 


371. 


372. 


373. 


374. 


375. 


376. 


3TT. 


D. Marr, in WH. Freeman. Vision: A Computational Investigation into the Human Repre- 
sentation and Processing of Visual Information, (1983) 

A.F. Martin and R.C. Bolles, in Comm. of the ACM. Random Sample Consensus: A 
Paradigm for Model Fitting with Applications to Image Analysis and Automated Cartog- 
raphy, vol. 24, pp. 381—395, (1981) 

N. Massari, M. Gottardi, L. Gonzo, D. Stoppa and A. Simoni, in /EEE Transactions on Neu- 
ral Networks. A CMOS Image Sensor with Programmable Pixel-Level Analog Processing, 
vol. 16, no. 6, pp. 1673-1684, (2005) 

N. Massari, M. Gottardi and A. Simoni, in Proceedings of IEEE Sensors. A CMOS Optical 
Sensor with on Focal Plane Programmable Spatio-Temporal Filters, vol. 3, pp. 1281-1284, 
(2004) 

J. Matas and O. Chum, in Proceedings of the British Machine Vision Conference. Random- 
ized Ransac with t(d,d) Test, (2002) 

J. Matas, O. Chum, M. Urban and T. Pajdla, in Proceedings of the British machine vision 
conference. Stephens & George Print Group, London, UK. Robust Wide Baseline Stereo 
from Maximally Stable Extremal Regions, vol. 1, pp. 384—393, (2002) 


. D. Matolin, C. Posch, R. Wohlgenannt and T. Maier, in JEEE International Symposium on 


Circuits and Systems, ISCAS (2008). A 64x64 Pixel Temporal Contrast Microbolometer 
Infrared Sensor, pp. 1644—1647, (2008) 


. KJ. Mayer. Austrian patent AT 501.761. Farbzeilenkamera, (2006) 
. KJ. Mayer. Austrian patent pending AT 504.626. Verfahren und Einrichtung zur Aufnahme, 


Prüfung und Auswertung von Bildern eines Gegenstandes, (2006) 


. KJ. Mayer, W. Krattenthaler, A. Vrabl and D. Heiss. Austrian patent AT 502.069. Verfahren 


und Einrichtung zur Prüfung von Gegenstanden, (2006) 

L.G. Mcllrath, in EEE Journal of Solid-State Circuits. A Low-power Low-noise Ultrawide- 
dynamic-range CMOS Imager with Pixel-parallel A/D Conversion, vol. 36, no. 5, 
pp. 846—853, (2001) 

L.G. Mellrath, V.S. Clark, PK. Duane, R.D. McGrath and W.D. Waskurak, in JEEE Trans- 
actions on Electron Devices. Design and Analysis of a 512x768 Current-mediated Active 
Pixel Array Image Sensor, vol. 44, no 10, pp. 1706-1715, (1997) 

C. Mead, in Analog VLSI and Neural Systems, Addison- Wesley, New york (1989) 

R. Mech and M. Wollborn, in Signal Processing. A Noise Robust Method for 2D Shape 
Estimation of Moving Objects in Video Sequences Considering a Moving Camera, vol. 66, 
no. 2, pp. 203-217, (1998) 

H. Medeiros, J. Park, and A. Kak, in Proceedings of 2nd IEEE Workshop on Embedded 
Computer Vision (ECVW), CVPR 2008. A Parallel Color-based Particle Filter for Object 
Tracking, pp. 1-8, (2008) 

S. Mendis, S.E. Kemeny and E.R. Fossum, in /EEE Transactions on Electron Devices. 
CMOS Active Pixel Image Sensor, vol. 41, no. 3, pp. 452-453, (1994) 

S.K. Mendis, S.E. Kemeny and E.R. Fossum, in International Electron Devices Meeting, 
1993. IEDM '93. Technical Digest. A 128x128 CMOS Active Pixel Image Sensor for Highly 
Integrated Imaging Systems, pp. 583—586, (1993) 

S.K. Mendis, S.E. Kemeny, R.C. Gee, B. Pain, C.O. Staller, Q. Kim and E.R. Fossum, in 
IEEE Journal of Solid-State Circuits. CMOS Active Pixel Image Sensors for Highly Inte- 
grated Imaging Systems, vol. 32, no. 2, pp. 187-197, (1997) 

C. Micheloni, G.L. Foresti and L. Snidaro, in /EE-proc. Vis. Image Signal Processing. A 
Network of Co-operative Cameras for Visual Surveillance, vol. 152, no. 2, pp. 205-212, 
(2005) 

C. Micheloni, C. Piciarelli and G.L. Foresti, in Behaviours Research Methods. How a Visual 
Surveillance System Hypothesizes How You Behave, vol. 38, pp. 447—455, (2006) 

C. Micheloni, C. Piciarelli and G. L. Foresti, in IEEE Transactions on Circuits and Sys- 
tems for Video Technology. Trajectory-based Anomalous Event Detection, vol. 18, no. 11, 
pp. 1544-1554, (2008) 


313 


314 智能 摄像 机 





378. 


379. 


380. 


381. 


382. 


383. 


384. 


385. 


386. 


387. 


388. 


389. 


390. 


391. 


392. 


393. 


394. 


395. 


396. 


397. 


C. Micheloni and G.L. Foresti, in JEEE International Conference on Pattern Recognition, 
Honk Kong. Focusing on Target's Features while Tracking, pp. 836-839, (2006) 

Micron, Inc., in Datasheet. 1.3-megapixel CMOS Active-Pixel Digital Image Sensor, 
(2004) 

B. Micu&ík, H. Wildenauer and J. KoSecka, in Proceedings of IEEE Conference on Computer 
Vision and Pattern Recognition (CVPR). Detection and Matching of Rectilinear Structures, 
pp. 1-7, (2008) 

B. Micu&ík, H. Wildenauer and M. Vincze, in Proceedings of IEEE International Conference 
on Robotics and Automation (ICRA). Towards Detection of Orthogonal Planes in Monocular 
Images of Indoor Environments, pp. 999-1004, (2008) 

I. Mikic, P. Cosman, G. Kogut and M. Trivedi, in Proc. Int. Conf. on Pattern Recognition 
(ICPR), Barcelona, Spain. Moving Shadow and Object Detection in Traffic Scenes, vol. 1, 
pp. 321-324, (2000) 

A. Minagawa, N. Tagawa, T. Moriya and T. Gotoh, in Proceedings of the International 
Conference on Image Analysis and Processing. Line Clustering with Vanishing Point and 
Vanishing Line, pp. 388—393, (1999) 

A. Mohan, C. Papageorgiou and T. Poggio, in JEEE Transactions on Pattern Analysis and 
Machine Intelligence. Example-based Object Detection in Images by Components, vol. 23, 
Nr. 4, pp. 349—361, (2001) 

A. Moini, in Vision Chips, Kluwer Academic Publishers, Norwell, MH, USA (1999) 

H. Moravec. PhD Thesis at Stanford University, USA. Obstacle Avoidance and Navigation 
in the Real World by a Seeing Robot Rover, (1980) 

S.R. Morrison, in Solid-State Electron 1963. A New Type of Photosensitive Junction Device, 
vol. 5, pp. 485-494, (1963) 

R. Mosqueron, J. Dubois, M. Mattavelli and D. Mauvilet, in EURASIP Journal on Embed- 
ded Systems. Smart Camera Based on Embedded HW/SW Co-processor, Article ID597872, 
Volume 2008, doi:10.1155/2008/597872, (2008) 

R. Mosqueron, J. Dubois and M. Paindavoine, in EURASIP Journal on Embed- 
ded Systems. High-Speed Smart Camera with High Resolution, Article ID 24163, 16 
pp. doi:10.1155/2007/24163, (2007) 

LT. Muirhead, in /EE Colloquium on Integrated Imaging Sensors and Processing 1994. 
Developments in CMOS Camera Technology, pp. 5/1—5/4, (1994) 

Y. Muramatsu, S. Kurosawa, M. Furumiya, H. Ohkubo and Y. Nakashiba, in JEEE Journal 
of Solid-State Circuits. A Signal-processing CMOS Image Sensor Using a Simple Analog 
Operation, vol. 38, no. 1, pp. 101—106, (2003) 

Y.M. Mustafah, A. Bigdeli, A.W. Azman and B.C. Lovell, in Recent Advances in Security 
Technology (RNSA). Smart Cameras Enabling Automated Face Recognition in the Crowd 
for Intelligent Surveillance System, (2007) 

D. Myatt, P. Torr, S. Nasuto and R. Craddock, in British Machine Vision Conference. Napsac: 
High Noise, High Dimensional Robust Estimation — Its in the Bag, (2002) 

M. Nagata, J. Funakoshi and A. Iwata, in IEEE Journal of Solid-State Circuits. A PWM 
Signal Processing Core Circuit Based on a Switched Current Integration Technique, vol. 33, 
no. 1, pp. 53-60, (1998) 

J. Nakamura, B. Pain, T. Nomoto, T. Nakamura and E.R. Fossum, in /EEE Transactions on 
Electron Devices. On-Focal-Plane Signal Processing for Current-Mode Active Pixel Sen- 
sors, vol. 44, no. 10, pp. 1747-1758, (1997) 

M. Narayana and D. Haverkamp, in Proceedings of 4th IEEE CVPR Workshop - Workshop 
on Object Tracking and Classification Beyond the Visible Spectrum (OTCBVS’07), Min- 
neapolis, Minnesota, USA. A Bayesian Algorithm for Tracking Multiple Moving Objects in 
Outdoor Surveillance Video, (2007) 

T. Natschlager, F. Kossak and M. Drobics, in Proceedings 13th IEEE Int. Conf. on Fuzzy 
Systems, Budapest, Hungary. Extracting Knowledge and Computable Models from Data — 
Needs, Expectations, and Experience, pp. 493-498, (2004) 





398 


399. 


400. 


401. 


402. 


403. 


404. 


405. 


406. 


407. 


408. 


409. 


410. 


411. 


412. 


413. 


414. 


415. 


416. 


. A. Neri, S. Colonnese, G. Russo and P. Talone, in Signal Processing. Automatic Moving 
Object and Background Separation, vol. 66, no. 2, pp. 219—232, (1998) 

D.C. Ng, T. Furumiya, K. Yasuoka, A. Uehara, K. Kagawa, T. Tokuda, M. Nunoshita and 
Jun Ohta, in IEEE Transactions on Circuits and Systems II: Express Briefs. Pulse Frequency 
Modulation Based CMOS Image Sensor for Subretinal Stimulation, vol. 53, no. 6, pp. 
487—491, (2006) 

A. Nghiem, F. Bremond, M. Thonnat and V. Valentin, in Proceedings of AVSS 2007, Septem- 
ber, 2007, London, UK. ETISEO, Performance Evaluation for Video Surveillance Systems, 
(2007) 

Y. Ni, F. Devos, M. Boujrad and J.H. Guan, in IEEE Journal of Solid-State Circuits. 
Histogram-equalization-based Adaptive Image Sensor for Real-time Vision, vol. 32, no. 7, 
pp. 1027-1036, (1997) 

D. Nister, in International Conference on Computer Vision. Preemptive RANSAC for Live 
Structure and Motion Estimation, (2003) 

P.J.W. Noble, in IEEE Transactions on Electron Devices. Self-scanned Silicon Image Detec- 
tor Arrays, vol. 15, no. 4, pp. 202-200, (1968) 

J. Norén, Thesis Dissertation at the University of Linkoping. Warning Systems Design in a 
Glass Cockpit Environment, (2008) 

E. Norouznezhad, A. Bigdeli, A. Postula and B.C. Lovell, in Second ACM/IEEE Interna- 
tional Conference on Distributed Smart Cameras. A High Resolution Smart Camera with 
GigE Vision Extension for Surveillance Applications, (2008) 

K. Nummiaro, E. Koller Meier and L.V. Gool, in Proceedings of First International Work- 
shop on Generative Model Based Vision. A Color -Based Particle Filter, (2002) 

K. Obraczka, R. Manduchi and J.J. Garcia Luna Aveces, in Proceedings 5th Intl. Symposium 
on Wireless Personal Multimedia Communications 3. Managing the Information Flow in 
Visual Sensor Networks, pp. 1177-1181, (2002) 

J. Ohta, in First Edition. Smart CMOS Image Sensors and Applications, CRC Press, USA 
(2008) 

Y. Ohta and T. Kanade, in /EEE Transactions on Pattern Analysis and Machine Intelli- 
gence. Stereo by Intra- and Inter-Scanline Search Using Dynamic Programming, vol. 7, 
pp. 139-154, (1985) 

K. Okuma, A. Taleghani, N. de Freitas, J. Little and D. Lowe, in Proceedings of 8th 
European Conference on Computer Vision (ECCV) 2004, Prague, Czech Republic, LNCS. 
A Boosted Particle Filter: Multitarget Detection and Tracking, vol. 3021, pp. 28-39, 
(2004) 

K. Okuma, A. Taleghani, N. de Freitas, J. Little and D. Lowe, in Proceedings of 9th Euro- 
pean Conference on Computer Vision (ECCV) 2006, Graz, Austria, LNCS, Springer Verlag. 
Tracking Across Cameras by Incrementally Inter-camera Colour Calibration and Pattern of 
Activity, vol. 3952 II, pp. 125-136, (2006) 

J. Owens and A. Hunter, in 3rd IEEE International Workshop on Visual Surveillance. Appli- 
cation of the Self-organising Map to Trajectory Classification, (2000) 

F. Paillet, D. Mercier and T.M. Bernard, in Proceedings of Twelfth Annual IEEE Inter- 
national ASIC/SOC Conference. Second Generation Programmable Artificial Retina, 
pp. 304-309, (1999) 

F. Pardo, J.A. Boluda, J.J Perez, B. Dierickx and D. Scheffer, in Proceedings of SPIE, 
Advanced Focal Plane Processing and Electronic Cameras. Design Issues on CMOS Space- 
variant Image Sensors, vol. 2950, pp. 98-107, (1996) 

J.H. Park, S. Kawahito and Y. Wakamori, in IEICE Electronics Express. A New Active Pixel 
Structure with a Pinned Photodiode for Wide Dynamic Range Image Sensors, vol. 2, no. 18, 
pp. 482-487, (2005) 

E. Pece, in Proceedings of First IEEE International Workshop on Performance Evaluation of 
Tracking and Surveillance, PETS, Grenoble, France. Tracking by Cluster Analysis of Image 
Differences, pp. 295-303, (2000) 


315 


316 智能 摄像 机 





417. 


418. 


419. 
420. 


421. 


422. 


423. 


424. 


425. 


426. 


427. 


428. 


429. 


430. 


431. 


432. 


433. 


434. 


435. 


436. 





H. Penz, I. Bajla, K.J. Mayer and W. Krattenthaler, in Proceedings of the Conference on 
Diagnostic Imaging Technologies and Industrial Applications. High-speed Template Match- 
ing with Point Correlation in Image Pyramids, vol. 3827, pp. 85—94, (1999) 

A. Perera, C. Srinivas, A. Hoogs, G. Brooksby and W. Hu, in IEEE Conf. on Computer Vision 
and Pattern Recognition. Multi-object Tracking Through Simultaneous Long Occlusions 
and Split-merge Conditions, pp. 666-673, (2006) 

M.R. Peres, in Focal Press, 4th edition. The Focal Encyclopedia of Photography, (2007) 

S. Perri, D. Colonna, P. Zicari and P. Corsonello, in Proceedings of the 13th IEEE Inter- 
national Conference on Electronics, Circuits and Systems. SAD-Based Stereo Matching 
Circuit for FPGAs, (2006) 

R. Pflugfelder. PhD Thesis at Graz University of Technology, Austria. Self-calibrating Cam- 
eras in Video Surveillance, (2008) 

R. Pflugfelder and H. Bischof, in W. Burger and J. Scharinger (eds.) Digital Imag- 
ing in Media and Education, Proceedings of the 28th AAPR Workshop, AAPR/OAGM 
— Österreichische Arbeitsgemeinschaft Mustererkennung, Österreichische Computer 
Gesellschaft. Vanishing Points and Lorries, vol. 179, pp. 205-212, (2003) 

R. Pflugfelder and H. Bischof, in Proceedings of the IEEE International Conference on 
Advanced Video and Signal based Surveillance. London, UK. People Tracking Across Two 
Distant Self-calibrated Cameras, (2007) 

R. Pflugfelder, H. Bischof, G. Fernandez, M. Nólle and H. Schwabach, in Proceedings of the 
8th IEEE International Conference on Intelligent Transportation Systems (ITSC). Influence 
of Camera Properties on Image Analysis in Visual Tunnel Surveillance, (2005) 

R. Pflugfelder and H. Bischof, in Proceedings of 19th International Conference on Pattern 
Recognition, Miami, Florida, USA. Tracking Across Non-overlapping Views via Geometry, 
(2008) 

R. Philipp and R. Etienne-Cummings, in Analog Integrated Circuits and Signal Processing 
Journal, A Single Chip Stereo Vision System, pp. 703—712, (2004) 

R.M. Philipp, D. Orr, V. Gruev, J. Van der Spiegel and R. Etienne-Cummings, in JEEE 
Journal of Solid-State Circuits. Linear Current-mode Active Pixel Sensor, vol. 42, no. 11, 
pp. 2482-2491, (2007) 

B.T. Phong, in Commun. ACM. Illumination for Computer Generated Pictures, vol. 18, 
no. 6, pp. 311—317, (1975) 

K.S J. Pister, J.M. Kahn, and B.E. Boser, in Highlight Article, Electronics Research Labora- 
tory Research Summary. Smart Dust: Wireless Networks of Millimeter-Scale Sensor Nodes, 
(1999) 

E. Polat, M. Yeasin, and R. Sharma, in Proceedings of the IEEE Workshop on Multi- 
Object Tracking (WOMOT’01). Tracking Body Parts of Multiple People: A New Approach, 
pp. 35-41, (2001) 

C. Posch, M. Hofstatter, D. Matolin, G. Vanstraelen, P. Schon, N. Donath and M. Litzen- 
berger, in IEEE International Conference on Solid-State Circuits, ISSCC (2007) Digest of 
Technical Papers. A Dual-line Optical Transient Sensor with On-chip Precision Time-stamp 
Generation, pp. 500-618, (2007) 

C. Posch, D. Matolin and R. Wohlgenannt, in /EEE International Symposium on Circuits 
and Systems, ISCAS (2008). An Asynchronous Time-based Image Sensor, pp. 2130-2133, 
(2008) 

K. Pulli, T. Aarnio, V. Miettinen, K. Roimela and J. Vaarala, in Morgan Kaufmann. Mobile 
3D Graphics, (2008) 

PULNiX Inc., in Specification of the Camera Link Interface Standard for Digital Cameras 
and Frame Grabbers, PULNiX Press, USA (2000) 

X. Qi, X. Guo and J.G. Harris, in Proceedings of the IEEE Conference on Circuits 
and Systems, ISCAS2004. A Time-to-First Spike CMOS Imager, vol. 4, pp. IV-824-7, 
(2004) 

L. Quan and R. Mohr, in Pattern Recognition Letters. Determining Perspective Structures 
Using Hierarchical Hough Transform, vol. 9, pp. 279—286, (1989) 


317 





437. 


438. 


439. 


440. 


441. 


442. 


443. 


444. 


445. 


446. 


447. 


448. 


449. 


450. 


451. 


452. 


453. 
454. 


455. 


V. Rabaud and S. Belongie, in Proceedings of the IEEE Conference on Computer Vision and 
Pattern Recognition (CVPR2006), New York, USA. Counting Crowded Moving Objects, 
(2006) 

R. J. Radke, S. Andra, O. Al-kofahi and B. Roysam, in /EEE Transactions on Image Pro- 
cessing. Image Change Detection Algorithms: A Systematic Survey, vol. 14, pp. 294-307, 
(2005) 

A. Rahimi, B. Dunagan and T. Darrell, in Proceedings of the IEEE Conference on Computer 
Vision and Pattern Recognition. Simultaneous Calibration and Tracking with a Network of 
Non-overlapping Sensors, vol. 1, pp. I-187-1-194, (2004) 

S. Randriamasy and A. Gagalowicz, in Proceedings of Computer Vision and Pattern 
Recognition. Region Based Stereo Matching Oriented Image Processing, pp. 736—737, 
(1991) 

Z. Rasheed, X. Cao, K. Shafique, H. Liu, L. Yu, M. Lee, K. Ramnath, T. Choe, O. Javed 
and N. Haering, in ACM/IEEE International Conference on Distributed Smart Cameras. 
Automated Visual Analysis in Large Scale Sensor Networks, pp. 1-10, (2008) 

C. Rasmussen and G. Hager, in IEEE Transactions on Pattern Analysis and Machine Intelli- 
gence. Probabilistic Data Association Methods for Tracking Complex Visual Objects Prob- 
abilistic Data Association Methods for Tracking Complex Visual Objects, vol. 23, no. 6, 
pp. 560—576, (2001) 

C. Regazzoni, V. Ramesh and G.L. Foresti, in Proceedings of the IEEE. Special no. on 
Video Communications, Processing, and Understanding for Third Generation Surveillance 
Systems, vol. 89, no. 10, pp. 1355-1539, (2001) 

D.B. Reid, in IEEE Transactions on Automatic Control. An Algorithm for Tracking Multiple 
Targets, vol. 24, no. 6, pp. 843-854, (1979) 

P. Remagnino and G. Jones, in Proceedings of British Machine Vision Conference. Classify- 
ing Surveillance Events from Attributes and Behaviour, (2001) 

B. Rinner, M. Jovanovic and M. Quaritsch, in Proceedings of the IEEE International Con- 
ference on Acoustics, Speech, and Signal Processing (ICASSP). Embedded Middleware on 
Distributed Smart Cameras, pp. 1381-1384, (2007) 

B. Rinner, T. Winkler, W. Schriebl, M. Quaritsch and W. Wolf, in Proceedings of the Second 
ACM/IEEE International Conference on Distributed Smart Cameras. The Evolution from 
Single to Pervasive Smart Cameras, pp. 1-10, (2008) 

B. Rinner and W. Wolf, in Proceedings of the IEEE. An Introduction to Distributed Smart 
Cameras, vol. 96, no. 10, pp. 1565-1575, (2008) 

J. Rittscher, P. Tu and N. Krahnstoever, in Proceedings of Computer Vision and Pat- 
tern Recognition, San Diego, USA. Simultaneous Estimation of Segmentation and Shape, 
(2005) 

A. Rodriguez Vazquez, S. Espejo, R. Dominguez-Castron, J.L. Huertas and E. Sanchez- 
Sinencio, in /EEE Transactions on Circuits and Systems II: Analog and Digital Signal Pro- 
cessing. Current-mode Techniques for the Implementation of Continuous- and Discrete-time 
Cellular Neural Networks, vol. 40, no. 3, pp. 132-146, (1993) 

A. Rodriguez Vazquez, G. Linan-Cembrano, L. Carranza, E. Roca-Moreno, R. Carmona- 
Galan, E. Jimenez-Garrido, R. Dominguez-Castro and S.E. Meana., in IEEE Transac- 
tions on Circuits and Systems I: Regular Papers. ACE16k: The Third Generation of 
Mixed-signal SIMD-CNN ACE Chips Toward VSoCs, vol. 51, no. 5, pp. 851-863, 
(2004) 

K. Romer and F. Mattern, in IEEE Wireless Communications. The Design Space of Wireless 
Sensor Networks, Vol. 11, no. 6, pp. 54-61, (2004) 

R. Roovers, in Philips Research Laboratories. Personal Communication, (2005) 

R. Rosales and S. Sclaroff, in CVPR Workshop on the Interpretation of Visual Motion. 
Improved Tracking of Multiple Humans with Trajectory Prediction and Occlusion Modeling, 
(1998) 

C.A. Rosen, N.J. Nilsson and M.B. Adams, in Proposal ESU 65-1 Technical, See proposal 
ESU 65-117 and Project 5953, Stanford University, A Research and Development Program 
in Applications of Intelligent Automata to Reconnaissance-Phase, (1965) 


318 智能 摄像 机 





456. 


457. 


458. 


459. 
460. 


461. 


462. 


463. 


464. 


465. 


466. 


467. 


468. 


469. 


470. 


471. 


472. 


473. 


474. 


C. Rother. PhD Thesis, Royal Institute of Technology, Stockholm, Sweden. Multi-View 
Reconstruction and Camera Recovery Using a Real and Virtual Reference Plane, (2003) 

A. Rowe, A. Goode, D. Goel and I. Nourbakhsh, in Carnegie Mellon Robotics Institute 
Technical Report. CMUcam3: An Open Programmable Embedded Vision Sensor, RI-TR- 
07-13, (2007) 

E. Royer, M. Lhuillier, M. Dhome and T. Chateau, in EEE Conference on Computer Vision 
and Pattern Recognition (CVPR 2005), San Diego, CA, USA. Localization in Urban Envi- 
ronments: Monocular Vision Compared to a Differential GPS Sensor, vol. 2, pp. 114-121, 
(2005) 

E. Roza, in Philips Research Laboratories. Personal Communication, (2003) 

P.F. Ruedi, P. Heim, F. Kaess, E. Grenet, F. Heitger, P. Y. Burgi, S. Gyger and P. Nussbaum, 
in IEEE Journal of Solid-State Circuits. A 128 x 128 Pixel 120-dB Dynamic-range Vision- 
sensor Chip for Image Contrast and Orientation Extraction, vol. 38, no. 12, pp. 2325-2333, 
(2003) 

R.G. Runge, M. Uemura and S.S. Viglione, in Cybernetic Problems in Bionics. Electronic 
Synthesis of the Neural Networks in the Pigeon Retina, pp. 791—800, (1968) 

J. C. Russ, in The Image Processing Handbook, CRC Press, Inc., Third Edn. Boca Raton, 
FL, USA. (1998) 

I. Saleemi, K. Shafique and M. Shah, in /EEE Transactions on Pattern Analysis and Machine 
Intelligence. Probabilistic Modeling of Scene Dynamics for Applications in Visual Surveil- 
lance, (2009) 

E. Saykol, U. Gudukbay and O. Ulusoy, in Lecture Notes in Computer Science. A Database 
Model for Querying Visual Surveillance by Integrating Semantic and Low-Level Features, 
vol. 3665, pp. 163-176, (2005) 

F. Schaffalitzky and A. Zisserman, in Image and Vision Computing. Planar grouping for 
Automatic Detection of Vanishing Lines and Points, vol. 18, pp. 647—658, (2000) 

M. Schanz, C. Nitta, A. Bussmann, B.J. Hosticka and R.K. Wertheimer, in JEEE Journal of 
Solid-State Circuits. A High-Dynamic-Range CMOS Image Sensor for Automotive Appli- 
cations, vol. 35, no. 7, pp. 932-938, (2000) 

D. Scharstein and R. Szeleski, in IEEE Computer Society Conference on Computer Vision 
and Pattern. Recognition. High Accuracy Stereo Depth Maps Using Structured Light, 
pp. 195-202, (2003) 

D. Scharstein and R. Szeliski, in /nt. Journal of Computer Vision. A Taxonomy and Evalu- 
ation of Dense Two-frame Stereo Correspondence Algorithms, vol. 47, no. 1-3, pp. 7-42, 
(2002) 

J. Schiehlen and E. Dickmanns, in Procs. IEEE/RSJ Intl. Conf. on Intelligent Robots and 
Systems. Design and Control of a Camera Platform for Machine Vision, pp. 2058-2063, 
(1994) 

G. Schindler and F. Dellaert, in Proceedings of the Conference on Computer Vision and 
Pattern Recognition. Atlanta World: An Expectation Maximization Framework for Simulta- 
neous Low-level Edge Grouping and Camera Calibration in Complex Man-made Environ- 
ments, pp. 203-209, (2004) 

J. Schlessman, C. Chen, W. Wolf, B. Ozer, K. Fujino and K. Itoh, in Proceedings of the 
2006 Conference on Computer Vision and Pattern Recognition Workshop, Washington, 
DC, USA. Hardware/Software Co-Design of an FPGA-Based Embedded Tracking System, 
pp. 123-130, (2006) 

R. Schneidermann, in Electronics. Smart Cameras Clicking with Electronic Functions, vol. 
48, no. 17, pp. 74-81, (1975) 

D. Schreiber, in Pattern Recognition Letters. Robust Template Tracking with Drift Correc- 
tion, vol. 28, pp. 1483-1491, (2007) 

M.A. Schuster and G. Strull, in IEEE Transactions on Electron Devices 1966. A Monolithic 
Mosaic of Photon Sensors for Solid-state Imaging Applications, vol. 13, pp. 907—912, (1966) 





475. 


476. 


477. 


478. 


479. 


480. 


481. 


482. 


483. 


484. 


485. 


486. 


487. 


488. 


489. 


490. 


491. 


492. 


493. 


494. 


495. 


P. Schwarzkopf. Information Published at the Website of the EMVA and Accessed in January 
2009. The European Machine Vision Market, (2007) 

H. Schweitzer, J. Bell and F. Wu, in Proceedings of 7th European Conference on Computer 
Vision (ECCV) 2002, Copenhagen, Denmark. Very Fast Template Matching, pp. 358—372, 
(2002) 

I. Sekita, in Proceedings on CVVC. On Fitting Several Lines Using the EM Algorithm, 
pp. 107—109, (1994) 

L. Seiler et. al., in Proceedings of ACM SIGGRAPH. Larrabee: A Many Core x86 Architec- 
ture for Visual Computing, vol. 27, (2008) 

J.G. Semple and G.T. Kneebone, in Oxford Algebraic Projective Geometry, Oxford Press. 
(1998) 

M. Sen, I. Corretjer, EH.S. Saha, J. Schlessman, S.S. Bhattacharyya and W. Wolf, in Pro- 
ceedings of IEEE Workshop on Embedded Computer Vision (ECVW), CVPR, San Diego, 
CA, USA. Computer Vision on FPGAs: Design Methodology and its Application to Gesture 
Recognition, pp. 133-141, (2005) 

K.S. Seo, J.H. Lee and H.M. Choi, in Pattern Recognition Letters. An Efficient Detec- 
tion of Vanishing Points Using Inverted Coordinates Image Space, vol. 27, pp. 102-108, 
(2006) 

T. Serre, L. Wolf, S. Bileschi, M. Riesenhuber and T. Poggio, in IEEE Transactions on 
Pattern Analysis and Machine Intelligence. Robust Object Recognition with Cortex-Like 
Mechanisms, vol. 29, pp. 411—426, (2007) 

K. Shafique, A. Hakeem, O. Javed, and N. Haering, in JEEE Workshop on Applications of 
Computer Vision. Self Calibrating Visual Sensor Networks, pp. 1—6, (2008) 

K. Shafique and M. Shah, in IEEE Transactions on Pattern Analysis and Machine Intelli- 
gence. A Non-iterative Greedy Algorithm for Multi-frame Point Correspondence, vol. 27, 
pp. 51-65, (2005) 

M. Shah, O. Javed and K. Shafique, in IEEE Multimedia. Automated Visual Surveillance in 
Realistic Scenarios, vol. 14, pp. 30-39, (2007) 

L. Shapiro, in Sensor Review, 1996. Intelligent Cameras, vol. 16, no. 3, pp. 4—5, (1996) 

A. Shashua, Y. Gdalyahu and G. Hayun, in Proceedings of the IEEE Intelligent Vehicles Sym- 
posium, Parma, Italy. Pedestrian Detection for Driving Assistance Systems: Single-Frame 
Classification and System Level Performance, pp. 1—6, (2004) 

Y. Shi and S. Lichman, in CCTV Focus. Smart Cameras: A Review, no. 36, pp. 34—43 2006, 
and no. 37, pp. 38-45, (2006) 

J. Shi and C. Tomasi, in Proceedings of IEEE Conference on Computer Vision and Pattern 
Recognition, Seattle, WA, USA. Good Features to Track, pp. 593-600, (1994) 

Y. Shi and T. Tsui, in Proceedings 8th Asian Conference on Computer Vision. An FPGA- 
based Smart Camera for Gesture Recognition in HCI Applications, (2007) 

P. Shin, X. Gao, R. Kleihorst, J. Park and A. Kak, in International Conference on Distributed 
Smart Cameras, Stanford, CA, USA. An Efficient Algorithm for the Extraction of Contours 
and Curvature Scale Space on SIMD-Powered Smart Cameras, (2008) 

C. Shoushun and A. Bermak, in Proceedings. of the IEEE International Symposium on Cir- 
cuits and Systems, ISCAS2005. A Low Power CMOS Imager Based on Time-to-First-Spike 
Encoding and Fair AER, vol. 5, pp. 5306-5309, (2005) 

C. Shoushun, F. Boussaid and A. Bermak, in IEEE Sensors Journal. Robust Intermediate 
Read-out for Deep Submicron Technology CMOS Image Sensors, vol. 8, no. 3, pp. 286-294, 
(2008) 

J.A. Shufelt, in IEEE Transactions on Pattern Analysis and Machine Intelligence. Perfor- 
mance Evaluation and Analysis of Vanishing Point Detection Techniques, vol. 21, no. 3, 
pp. 282—288, (1999) 

O. Sidla, Y. Lypetskyy, N. Brandle and S. Seer, in IEEE International Conference on 
Advanced Video and Signal Based Surveillance. Pedestrian Detection and Tracking for 
Counting Applications in Crowded Situations, (2006) 


319 


320 智能 摄像 机 





496. 


497. 


498. 


499. 


500. 


501. 


502. 


503. 


504. 


505. 


506. 


507. 


508. 


509. 


510. 


511. 


512. 


513. 


514. 


N. Siebel and S. Maybank, in Proceedings of IEEE Workshop on Applications on Computer 
Vision (ACV), CVPR 2004, Washington, DC, USA. The Advisor Visual Surveillance System, 
(2004) 

R. Sim and J.J. Little, in Proceedings of the 2006 IEEE/RSJ International Conference on 
Intelligent Robots and Systems. Autonomous Vision-Based Exploration and Mapping Using 
Hybrid Maps and Rao-Blackwellised Particle Filters, (2004) 

H. Simon, in Harper and Row, The shape of Automation: For Men and Management, (1965) 
E. Simmons, E. Ljung and R. Kleihorst, in DSC’06, Boulder, USA. Distributed Vision with 
Multiple Uncalibrated Smart Cameras, (2006) 

J. Singh, in New york Optoelectronics: An Introduction to Materials and Devices, McGraw- 
Hill (1996) 

S.N. Sinha and M. Pollefeys, in Workshop on Omnidirectional Vision and Camera Net- 
Works at ECCV-04, Prague, Czech Republic. Towards Calibrating a Pan-Tilt-Zoom Camera 
Network, (2004) 

K. Skifstad and R. Jain, in Computer Vision, Graphics, and Image Processing. Illumina- 
tion Independent Change Detection for Real World Image Sequences, vol. 46, pp. 387—399, 
(1989) 

K. Smith, S. Ba, J. Odobez and D. Gatica Perez, in Proceedings IEEE Conference on Com- 
puter Vision and Pattern Recognition, Workshop on Empirical Evaluation Methods in Com- 
puter Vision (CVPR-EEMCY,), San Diego, CA, USA. Evaluating Multi-Object Tracking, 
(2005) 

M. Sonka, V. Hlavac and R. Boyle, in Thomson-Engineering. 2nd Edition. Image Processing, 
Analysis, and Machine Vision, (1998) 

J.D. Spinhirne, V.S. Scott, J.F. Cavanaugh, S. Palm, K. Manizade, J.W. Hoffman and 
R.C. Grush, in E.L. Dereniak, R.E. Sampson (eds.) Society of Photo-Optical Instrumen- 
tation Engineers (SPIE) Conference Series, Infrared Detectors and Focal Plane Arrays V. 
Preliminary Spaceflight Results from the Uncooled Infrared Spectral Imaging Radiometer 
(ISIR) on Shuttle Mission sts-85, vol. 3379, pp. 14—21, (1998) 

J. Stauder, R. Melch and J. Ostermann, in IEEE Transactions on Multimedia. Detection of 
Moving Cast Shadows for Object Segmentation, vol. 1, no. 1, pp. 65-77, (1999) 

C. Stauffer, in Proceedings of the IEEE Workshop on Motion and Video Computing. Learning 
to Track Objects Through Unobserved Regions, vol. 2, pp. 96-102, (2005) 

C. Stauffer, in Proceedings of the Second IEEE Event Mining Workshop at CVPR2003. Esti- 
mating Tracking Sources and Sinks, vol. 4, pp. 35, (2003) 

C. Stauffer and W. Grimson, in IEEE Transactions on Pattern Analysis and Machine Intelli- 
gence. Learning Patterns of Activity Using Real Time Tracking, vol. 22, no. 8, pp. 747—757, 
(2000) 

C. Stauffer and K. Tieu, in Proceedings of the IEEE Computer Vision and Pattern Recog- 
nition Conference CVPR2003. Automated Multi-camera Planar Tracking Correspondence 
Modeling, vol. 1, pp. I-259-1-266, (2003) 

C. Stauffer, K. Tieu and L. Lee, in Proceedings of the Joint IEEE International 
Workshop on Visual Surveillance and Performance Evaluation of Tracking and Survei- 
llance. Robust Automated Planar Normalization of Tracking Data, pp. 1-8, (2003) 
T. Strang and C. Linnhof-Popien, in First International Workshop on Advanced Context 
Modelling, Reasoning And Management at UbiComp 2004, Nottingham, England. A Con- 
text Modeling Survey, (2004) 

T. Strang, C. Linnhof-Popien, and K. Frank, in J.B. Stefani, I. Dameure, and D. Hagimont 
(ed.), LNCS 2893: Proceedings of 4th IFIP WG 6.1 International Conference on Distributed 
Applications and Interoperable Systems (DAIS2003), Paris, France, volume 2893 of Lecture 
Notes in Computer Science (LNCS), Springer Verlag. CoOL: A Context Ontology Language 
to Enable Contextual Interoperability, pp. 236—247, (2003) 

P. Sturm and S.J. Maybank, in Proceedings of the British Machine Vision Conference. A 
Method for Interactive 3D Reconstruction of Piecewise Planar Objects from Single Images, 
pp. 265-274, (1999) 





515 


516. 


517. 


518. 


519. 


520. 


2521. 


522. 


528. 


524. 


2225 


526. 


521. 


528. 


529. 


530. 


531. 


532. 


533. 


. J. Sun, N.N. Zheng and H.Y. Shum, in JEEE Transactions on Pattern Analysis and 
Machine Intelligence. Stereo Matching Using Belief Propagation, vol. 25, pp. 787—800, 
(2003) 

S. Sutor, F. Matusek and R. Reda, in Proceedings of the Fourth Advanced International 
Conference on Telecommunications, Athens. WSSU: High Performance Wireless Self- 
Contained, Surveillance Unit; an Ad Hoc Video Surveillance System, (2008) 

S.M. Sze and K.K. Ng, in Physics of Semiconductor Devices, Third Edition John Wiley and 
Sons, New york (2007) 

M. Taj and A. Cavallaro, in IEEE International Conference on Image Processing. Multi- 
camera Scene Analysis Using an Object-centric Continuous Distribution Hidden Markov 
Model, (2007) 

M. Taj, E. Maggio and A. Cavallaro, in Proceedings of Classification of Events, Activities 
and Relationships (CLEAR) Workshop, Baltimore, Maryland (USA). Person and Vehicle 
Detection and Tracking: Experiments on the CLEAR Dataset, (2007) 

M. Tajkovic, in Proceedings of the 5th Asian Conference on Computer Vision (ACCV), Mel- 
bourne, Australia. Interactive Calibration of a PTZ Camera for Surveillance Applications, 
(2002) 

H. Tao, H.S. Sawhney and R. Kumar, in Proceedings of the Int. IEEE Conference on Com- 
puter Vision, Vancouver, British Columbia, Canada. A Global Matching Framework for 
Stereo Computation, pp. 532-539, (2001) 

G. Takacs et al., in Proceedings of the ACM International Conference on Multimedia Infor- 
mation Retrieval, 2008. Outdoors Augmented Reality on Mobile Phone Using Loxel-based 
Visual Feature Organization, pp. 427—434, (2008) 

N. Takeda, M. Homma, M. Nagata, T. Morie and A. Iwata, in Proceedings of the ASP- 
DAC (2000) Asia and South Pacific Design Automation Conference. A Smart Imager for the 
Vision Processing Front-end, pp. 19-20, (2000) 

K.P. Tanaka, F. Ando, K. Taketoshi, I. Ohishi and G. Asari, in Japanese Journal of Applied 
Physics. Novel Digital Photosensor Cell in GaAs IC Using Conversion of Light Intensity to 
Pulse Frequency, vol. 32, no. 11A, pp. 5002—5007, (1993) 

J. Tanner and C. Mead, in IEEE VLSI Signal Processing II. An Integrated Analog Optical 
Motion Sensor, pp. 59-87, (1988) 

GR. Taylor, A.J. Chosak and P.C. Brewer, in Proceedings of IEEE International Conference 
on Computer Vision and Pattern Recognition. OV VV: Using Virtual Worlds to Design and 
Evaluate Surveillance Systems, pp. 1-8, (2007) 

J. Tierno and C. Campo, in /EEE Pervasive Computing. Smart Camera Phones: Limits and 
Applications, (2005) 

K. Tieu, G. Dalley and W. Grimson, in Proceedings of the Int. IEEE Conference on Com- 
puter Vision. Inference of Non-overlapping Camera Network Topology by Measuring Sta- 
tistical Dependence, (2005) 

G. Timar and C. Rekeczky, in /EEE Transactions on Circuits and Systems I: Regular Papers. 
A Real-Time Multitarget Tracking System with Robust Multichannel CNN-UM Algorithms, 
vol. 52, no. 7, pp. 1358-1371, (2005) 

T. Tokuda, D.C. Ng, H. Okamoto, K. Kagawa, J. Ohta and M. Nunoshita, in Proceedings of 
IEEE Sensors. Wide Dynamic Range Pulse Modulation Image Sensor for On-chip Bioimag- 
ing Applications, vol. 2, pp. 818-821, (2004) 

E. Tola, V. Lepetit and P. Fua, in IEEE International Conference on Computer Vision and 
Pattern Recognition, Anchorage, Alaska, USA. A Fast Local Descriptor for Dense Match- 
ing, pp. 1-8, (2008) 

C. Tomasi and T. Kanade, in Carnegie Mellon University Technical Report CMU-CS-91-132. 
Detection and Tracking of Point Features, (1991) 

B. Tordoff and D. Murray, in European Conference on Computer vision. Guided Sampling 
and Consensus for Motion Estimation, (2002) 


321 


322 智能 摄像 机 


534. 


535. 


536. 


537. 


538. 


539. 


540. 


541. 


542. 


543. 


544. 


545. 


546. 


547. 


548. 


549. 


550. 


551. 


552. 


553. 





A. Torralba, in Contextual Influences on Saliency, Neurobiology of Attention, Academic 
Press Inc, London. (2005) 

D. Toth, T. Aach and V. Metzler, in Proceedings of European Conference on Signal Pro- 
cessing (EUSIPCO), Tampere, Finland. Bayesian Spatio-temporal Motion Detection under 
Varying Illumination, pp. 2081—2084, (2000) 

E. Trucco and K. Plakas, in JEEE Journal of Oceanic Engineering. Video Tracking: a Con- 
cise Survey, vol. 31, no. 2, pp. 520-529, (2006) 

R.Y. Tsai, in IEEE Journal of Robotics and Automation. A Versatile Camera Calibration 
Technique for High-Accuracy 3D Machine Vision Metrology Using Off-the-Shelf TV Cam- 
eras and Lenses, vol. RA-3, no. 4, pp. 323-344, (1987) 

ED. Turek. Information Published in March 2007 at the Website of the Vision Systems and 
Accessed in January 2009. Introduction to Neural Net Machine Vision, (2007) 

Tuytelaars, in Proceedings of the International Conference on Computer Vision (ICCV). The 
Cascaded Hough Transform as an Aid, (1998) 

M. Ulstad, in Pattern Recognition. An Algorithm for Estimating Small Scale Differences 
Between Two Digital Images, vol. 5, pp. 323-333, (1973) 

T. Ungerer et al. Technical Report of VDE, Germany. Grand Challenges der Technischen 
Informatik, 2008 

J. Vaganay and B. Jouvencel, in IEEE OCEANS1996. Motion Estimation for ROV Stabiliza- 
tion with a Light-Stripe Sensor, vol. 3, pp. 1088-1093, (1996) 

FA. Van den Heuvel, in International Archives of Photogrammetry and Remote Sensing. 
Vanishing Point Detection for Architectural Photogrammetry, vol. 32, no. 5, pp. 652-659, 
(1998) 

E.A. Van den Heuvel, in International Archives of Photogrammetry and Remote Sensing. 
Estimation of Interior Orientation Parameters from Constraints on Line Measurements in a 
Single Image, vol. 32, pp. 81-88, (1999) 

J. Van der Spiegel, G. Kreider, C. Claeys, I. Debusschere, G. Sandini, P. Dario, F. Fantini, 
P. Belluti and G. Soncini, in Proceedings of the Workshop on Analog Integrated Neural 
Systems. In C. Mead and M. Ismail, (eds.), Analog VLSI Implementation of Neural Systems. 
Kluwer Academic Publishers, Boston. A Foveated Retina-like Sensor Using CCD Technol- 
ogy, chapter 8, pp. 189—212, (1989) 

G. Van der Wal, F. Brehm, M. Piacentino, J. Marakowitz, E. Gudis, A. Sufi and J. Mon- 
tante, in Proceedings of Embedded Computer Vision Workshop, International Conference 
on Computer Vision and Pattern Recognition. An FPGA-based Verification Framework for 
Real-Time Vision Systems, (2006) 

VDMA. Information Published at the VDMA Website and Accessed in January 2009. 
Machine Vision 2009/2010, Applications — Products — Suppliers, (2009) 

S. Velipasalar and W. Wolf, in Proceedings of Int. Conf. Image Proc. (ICIP'05), Genova, 
Italy. Multiple Object Tracking and Occlusion Handling by Information Exchange Between 
Uncalibrated Cameras, (2005) 

P. Venier, O. Landolt, P. Debergh and X. Arreguit, in ZEEE International Solid-State Circuits 
Conference, 1996. Digest of Technical Papers. Analog CMOS Photosensitive Array for Solar 
Illumination Monitoring, pp. 96-97, (1996) 

V. Venkateswar and R. Chellappa, in /nternational Journal of Computer Vision. Hierarchical 
Stereo and Motion Correspondence Using Feature Groupings, vol. 15, pp. 245-269, (1995) 
P. Villegas, X. Marichal and A. Salcedo in Proceedings of the International Workshop on 
Image Analysis for Multimedia Interactive Services (WIAMIS99). Objective Evaluation of 
Segmentation Masks in Video Sequences, pp. 85-88, (1999) 

P. Viola and M. Jones, in Conference on Computer Vision and Pattern Recognition. Rapid 
Object Detection using a Boosted Cascade of Simple Features, (2001) 

M. Walter, A. Psarrou and S. Gong, in Proceedings of British Machine Vision Conference. 
Learning Prior and Observation Augmented Density Models for Behaviour Recognition, 
(1999) 





554 


335. 


556. 


557. 


558. 


559. 


560. 


561. 


562. 


563. 


564. 


565. 


566. 


567. 


568. 


569. 


570. 


571. 


S72. 


573. 


574. 


575. 


576. 


H. Wang and D. Suter, in IEEE Transactions on Pattern Analysis and Machine Intelligence. 
Robust Adaptive-scale Parametric Model Estimation for Computer Vision, vol. 26, no. 11, 
pp. 1459-1474, (2004) 

X. Wang, K. Tieu and E. Grimson, in Proceedings of the European Conf. on Computer 
Vicion. Learning Semantic Scene Models by Trajectory Analysis, (2006) 

X. Wang, W. Wong and R. Hornsey, in /EEE Transactions on Electron Devices. A High 
Dynamic Range CMOS Image Sensor with In-pixel Light-to-frequency Conversion, vol. 53, 
no. 12, pp. 2988-2992, (2006) 

D. Wan and J. Zhaou, in Computer Vision and Image Understanding. Stereo Vision Using 
two PTZ Cameras, vol. 112, issue 2, pp. 184—194, (2008) 

G.P. Weckler, in IEEE Journal of Solid-State Circuits. Operation of p-n Junction Photode- 
tectors in a Photon Flux Integrating Mode, vol. 2, no. 3, pp. 65-73, (1967) 

G.Q. Wei and S.D. Ma, in IEEE Transactions on Pattern Analysis and Machine Intelli- 
gence. Implicit and Explicit Camera Calibration: Theory and Experiments, vol. 16, no. 5, 
pp. 469—480, (1994) 

B.N. Wei, Y. Shi, G. Ye and J. Xu, in Proceedings of IEEE 10th Workshop on Multimedia 
Signal Processing. Developing a Smart Camera for Road Traffic Surveillance, (2008) 

P.K. Weimer, G. Sadasiv, J.E. Meyer, L. Meray-Horvath and W.S. Pike, in Proceedings of 
the IEEE. ^ Self-scanned Solid-state Image Sensor, vol. 55, no. 9, pp. 1591-1602, (1968) 
J. Wild et al., in Women in Photography International, Digital Photography Milestones from 
Kodak, (2007) 

A. Wilson, in Vision Systems Design, July 2008. Smart Camera Monitors Traffic, vol. 13, no. 
7, (2008) 

A. Wilson in Vision Systems Design, January 2009. CMOS Sensors Target Multiple Appli- 
cations, vol. 14, no. 1, pp. 19-20, (2009) 

A. Wilson, in Vision Systems Design, January 2009. Extendable Standards, vol. 14, no. 1, 
pp. 41-45, (2009) 

A. Wilson, in Vision Systems Design, February 2009. High-Res Cameras Use Fiber Inter- 
faces, vol. 14, no. 2, pp. 17-18, (2009) 

A. Wilson. Information Published in September 2006 at the Website of the Vision Systems 
and Accessed in January 2009. Smart Cameras Look for Smarter Uses, vol. 11, no. 9, (2006) 
Wintriss Engineering Corporation, in Product Specification Press. Opsis 5150/7500 Smart 
Camera System Product Specifications, (2005) 

R. Wodnicki, G. W. Roberts and M.D. Levine, in /EEE Journal of Solid-State Circuits. A 
Log-Polar Image Sensor Fabricated in a Standard 1.2-4 m ASIC CMOS Process, vol. 32, 
no. 8, pp. 1274-1277, (August 1997) 

W. Wolf, in L.T. Yang et al. (eds.) EUC 2004, Springer LNCS 3207. Cameras and Pervasive 
Information Systems, pp. 1107-1108, (2004). 

W. Wolf, B. Ozer and T. Lu, in IEEE Computer. Smart Cameras as Embedded Systems, vol. 
35, no. 9, pp. 48-53, (2002) 

W. Wolf and P. Cook, in NSF Workshop on Cyber-Physical Systems. Smart Cameras and 
Microphones, (2006) 

J.I. Woodfill, G. Gordon and R. Buck, in Proceedings of the 2004 Conference on Comput. 
Vision and Pattern Recognition Workshops. The Tyzx DeepSea High Speed Stereo Vision 
System, (2004) 

C. Wren, A. Azarbayejani, T. Darrel and A. Pentland, in IEEE Transactions on Pattern 
Analysis and Machine Intelligence. Pfinder, Real time Tracking of the Human Body, vol. 19, 
pp. 780—785, (1997) 

C. Wu, H. Aghajan and R. Kleihorst, in International Conference on Distributed Smart Cam- 
eras, Vienna, Austria. Mapping Vision Algorithms on SIMD Architecture Smart Cameras, 
(2007) 

C. Wu, R. Kleihorst and H. Aghajan, in /nternational Conference on Information Processing 
in Sensor Networks (ISPN), St. Louis, USA. Real-time Human Posture Reconstruction in 
Wireless Smart Camera Networks, (2008) 


323 


324 智能 摄像 机 





577. 


578. 


579. 


580. 


581. 


582. 


583. 


584. 


585. 


586. 


587. 


588. 


589. 


590. 


591. 


592. 


593. 


594. 


595. 


596. 


C. Xu, W. Zhang, W.H. Ki and M. Chan, in JEEE Journal of Solid-State Circuits. A 1.0-v 
VDD CMOS Active-pixel Sensor with Complementary Pixel Architecture and Pulse Width 
Modulation Fabricated with a 0.25-um CMOS Process, vol. 37, no. 12, pp. 1853-1859, 
(2002) 

O. Yadid-Pecht and R. Etienne-Cummings, in CMOS Imagers — From Phototransduction to 
Image Processing First Edition Kluwer Academic Publishers, (2004) 

O. Yadid-Pecht, R. Ginosar and Y. Shacham-Diamand, in IEEE Transactions on Electron 
Devices. A Random Access Photodiode Array for Intelligent Image Capture, vol. 38, no. 8, 
pp. 1772-1780, (1991) 

H. Yamashila and C. Sodini, in /5$CC2001 Digest of technical papers. A 128 x 128 CMOS 
Imager with 4 x 128 Bit-serial Column-parallel PE Array, (2001) 

D.X.D. Yang, B. Fowler and A. El Gamal, in Proceedings of the IEEE 1996 Custom Inte- 
grated Circuits Conference. A 128x128 Pixel CMOS Area Image Sensor with Multiplexed 
Pixel Level A/D Conversion, pp. 303-306, (1996) 

D.X.D. Yang, B. Fowler and A. El Gamal, in Proceedings of the IEEE 1998 Custom Inte- 
grated Circuits Conference). A Nyquist Rate Pixel Level ADC for CMOS Image Sensors, 
pp. 237-240, (1998) 

D.X.D. Yang, A. El Gamal, B. Fowler and H. Tian, in IEEE Journal of Solid-State Circuits. 
A 640x512 CMOS Image Sensor with Ultrawide Dynamic Range Floating-point Pixel-Level 
ADC, vol. 34, no. 12, pp. 1821-1834, (1999) 

W. Yang, in Proceedings of IEEE International Solid-State Circuits Conference, 1994. 
Digest of Technical Papers. A Wide-dynamic-range, Low-power Photosensor Array, pp. 
230-231, (1994) 

Z. Yang, V. Gruev and J. Van der Spiegel, in Proceedings 2006 IEEE International Sym- 
posium on Circuits and Systems, ISCAS2006. A CMOS Linear Voltage/Current Dual-Mode 
Imager, (2006) 

Z. Yang, V. Gruev and J. Van der Spiegel, in IEEE International Symposium on Circuits 
and Systems, ISCAS2008. Current-Mode Image Sensor with 1.5 Transistors per Pixel and 
Improved Dynamic Range, pp. 1850-1853, (2008) 

A. Yilmaz, O. Javed and M. Shah, in ACM Computing Surveys. Object Tracking: A Survey, 
vol. 38, no. 4, (2006) 

R. Zabih and J. Woodfill, in European Conference on Computer Vision, Springer, New 
York, USA. Non-parametric Local Transforms for Computing Visual Correspondence, 
pp. 151-158, (1994) 

A. Zahrani, S. Ipson and J. Haigh, in Information Sciences. Application of a Direct Algo- 
rithm for the Rectification of Uncalibrated Images, pp. 53-71, (2004) 

A. Zarandy and C. Rekeczky, in JEEE Circuits and Systems Magazine. Bi-i: a Standalone 
Ultra High Speed Cellular Vision System, vol. 5, no. 2, pp. 36-45, (2005) 

E.Y. Zeng, D.C. Yen, H.G. Hwang and S.M. Huang, in /nternational Journal of Services 
Technology and Management. Mobile Commerce: The Convergence of E-commerce and 
Wireless Technology, vol. 4, pp. 302-322, (2003) 

Z. Zhang, in Proceedings of International IEEE Conference on Computer Vision. Flexible 
Camera Calibration by Viewing a Plane from Unknown Orientations, pp. 666, (1999) 

Z. Zhang, in IEEE Transactions on Pattern Analysis and Machine Intelligence. A Flexible 
New Technique for Camera Calibration, vol. 22, no. 11, pp. 1330-1334, (2000) 

W. Zhang and J. Kosecka, in Robotics: Science and Systems Conference. A New Inlier Iden- 
tification Procedure for Robust Estimation Problems, (2006) 

S. Zhou, R. Chellapa and B. Moghaddam, in IEEE Transactions on Image Processing. Visual 
Tracking and Recognition Using Appearance Adaptive Models in Particle Filters, vol. 11, 
pp. 1434-1456, (2004) 

H. Zhou, M. Taj and A. Cavallaro, in International Conference on Distributed Smart Cam- 
eras (ICDSC). Audiovisual Tracking using STAC Sensors, (2007) 


597 
598 


599. 


600. 


601. 


602. 


603. 


604. 


. H. Zimmermann, in Springer. Integrated Silicon Optoelectronics, (2000) 

. C. Zinner, M. Humenberger, K. Ambrosch and W. Kubinger, in Lecture Notes in Computer 
Science 5358. An Optimized Software-based Implementation of a Census-Based Stereo 
Matching Algorithm, pp. 216—227, (2008) 

N. Ziraknejad, S. Tafazoli and P. Lawrence, in Proceedings of IEEE Workshop on Machine 
Learning for Signal Processing. Autonomous Stereo Camera Parameter Estimation for Out- 
door Visual Servoing, pp. 157-162, (2007) 

B. Zitova and J. Flusser, in Image and Vision Computing. Image Registration Methods: A 
Survey, vol. 21, no. 11, pp. 977—1000, (2003) 

Z. Zivkovic, R. Kleihorst, A. Danilin, B. Schueler, C. Chan, H. Aghajan, G. Arturi and 
V. Kliger, in Proceedings ECV/CVPR 2008, Anchorage, USA. Towards Low Latency Ges- 
ture Control Using Smart Camera Network, (2008) 

N. Zuech. Information Published in November 2005 at the Website of the Machine Vision 
Online and Accessed in January 2009. Machine Vision Software, (2005) 

N. Zuech. Information Published in January 2006 at the Website of the Machine Vision 
Online and Accessed in January 2009. Machine Vision Trends, (2006) 

R. Pflugfelder, H. Bischof, in IEEE Transactions on Pattern Analysis and Machine Intel- 
ligence. Localization and Trajectory Reconstruction in Surveillance Cameras with Non- 
overlapping Views. IEEE computer Society Digital Library. IEEE Computer Society, (2009) 


325 





电话 服务 
社 服务 中 心 : 010-88361066 
销售 一 部 : 010-68326294 
销售 二 部 : 010-88379649 
读者 购书 热线 : 010-88379203 
为 中 华 崛 起 传播 知 慧 | 网 络 服务 
教材 网 : http://www.cmpedu.com 


地 址 : 北京 市 百 万 庄 大 街 22 号 机 工 官网 ; http://www.cmpbook.com 


机 工 官 博 : http;//weibo.com/cmp1952 
邮政 编码 :100037 封面 无 防伪 标 均 为 盗版 


策划 编辑 〇 顾 谦 
















际 信息 工程 先进 技术 译 从 


《智能 摄像 机 》 
《车 载 系统 和 安全 的 数字 信号 处 理 》 
《嵌入 式 系统 设计 一 一 嵌入 式 信息 物理 系统 基础 》 ( 原 书 第 ?版 ) 





《内 容 分 发 网 络 》 
《全 面 的 功能 验证 : 完整 的 工业 流程 》 
《无 线 Mesh 网 络 架构 与 协议 》 
《UMTS 蜂 写 系 统 的 QoS 与 QoE 管 理 》 
《半导体 制造 与 过 程控 制 基础 》 
《WCDWA 原 理 与 开发 设计 》 

《下 一 代 移 动 系统 :3G/B3G》 
(IMS: IP 多 媒体 概念 和 服务 》 CR 
oo t=] es 
HUMTS 
规划 与 自动 优化 : 理论 d 

《HSDPA/HSUPA 技 术 与 系统 设计 一 一 第 三 代 移动 
《通信 系统 宽带 无 线 接 入 》 

《无 线 传感器 及 元 器 件 : 网 络 、 设 计 与 应 用 》 

《 印 制 电路 板 一 一 设计 、 制 造 、 装 配 与 测试 》 
《IPTV 与 网 络 视频 :拓展 广播 电视 的 应 用 范围 》 

《多 电压 CMOS 电 路 设计 》 

《 微 电 子 技术 原理 、 设 计 与 应 用 》 

《蜂窝 网 络 高 级 规划 与 优化 2G/2.5G/3G/… 向 4G 的 演进 》 
《基于 蜂窝 系统 的 IMS 一 一 融合 电信 和 领域 的 VolP 演 进 》 

《无 线 网 络 中 的 合作 原理 与 应 用 》 

《 电 生 理学 方法 与 仪器 入 门 》 

《移动 电视 : DVB-H、DMB、3G 系 统 和 富 媒体 应 用 》 
《环境 网 络 : 支持 下 一 代 无 线 业务 的 多 域 协同 网 络 》 

《基于 射频 工程 的 UMTS 空中 接口 设计 与 网 络 运行 》 

《未 来 UMTS 的 体系 结构 与 业务 平台 : 全 IP 的 3G CDMA 网 络 》 
《UMTS-HSDPA 系 统 的 TCP 性 能 》 

《宽带 无 线 通信 中 的 空 时 编码 》 
《数字 图 像 处 理 》 ( 原 书 第 4 版 ) 
《基于 4G 系 统 的 移动 服务 技术 》 

《 吉 规 模 集成 电路 互 连 工艺 及 设计 》 



























